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Capitolo 1 

I numeri aleatori 


1.1 Preliminari 

Un Numero Aleatorio X è una quantità ben definita, ma non necessariamente nota, che si 
determina, ad esempio, effettuando un esperimento. Si possono conoscere i valori possibili, 
ovvero i valori che il numero aleatorio può assumere. Se X è il numero aleatorio, I(X) denota 
binsieme dei valori possibili. 

Esempio 1.1 Siano X,Y due numeri aleatori rappresentanti i risultati del lancio di una 
moneta e di un dado. Indicando croce con 0 e testa con 1, si ottiene 

I(X) = {0,1} 

I(Y) = {1,2,3,4,5,6} 


Un numero aleatorio X si dice: 

• superiormente limitato se l’insieme dei valori possibili I(X) è superiormente limitato 
(sup I(X) < +oo); 

• inferiormente limitato se l’insieme dei valori possibili I(X) è inferiormente limitato 
(inf/(Y) > — oo); 

• limitato se l’insieme dei valori possibili I(X) è sia superiormente che inferiormente 
limitato (sup/(Y) < +oo, inf I(X) > — oo). 

Dati X e Y numeri aleatori, si definisce I(X,Y) l’insieme delle coppie possibili. In generale, 
si indica con I(Yi,..., X n ) l’insieme delle n-uple possibili. 

X e Y si dicono logicamente indipendenti se 

I(X, Y) = I(X) x I(Y). 

dove I(X) x I(Y) indica il prodotto cartesiano fra l’insieme dei valori possibili I(X) e 
l’insieme dei valori possibili /(Y). 
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Esempio 1.2 (di non indipendenza logica) Si considerino due estrazioni senza reimbus- 
solamento di numeri da 1 a 90 (gioco del lotto), siano Xi ed X- 2 due numeri aleatori che 
rappresentano rispettivamente il risultato della prima e della seconda estrazione. L’insieme 
dei valori possibili è allora 

I(X,Y) = {(i,j)\l<i<90,i^j} 

Chiaramente, I(X , Y) ^ I(X) xI(Y ) perché I(X, Y ) non contiene le coppie del tipo (i, i), 
ie{l,...,90}. I due numeri aleatori X e Y non sono quindi logicamente indipendenti. 

I numeri aleatori X 1: ...,X n si dicono logicamente indipendenti se 

I(Xi ,..., X n ) = I(Xi) x ... x I(X n ). 

Con i numeri aleatori si possono effettuare le usuali operazioni aritmetiche. Inoltre, si 
definiscono le seguenti operazioni: 

1. lVF = max(I,F); 

2. X A Y = min(Y, Y): 

3. X = 1 — X 

Tali operazioni hanno le seguenti proprietà: 

1. Proprietà distributiva 

(1) X V (Y A Z) = (X V Y) A (X V Z) 


( 2 ) 


X A (Y VZ) = (X A Y) V (X A Z) 


2. Proprietà associativa 


(3) 


X V (Y V Z) = {X V Y) V Z 


(4) 


X A (Y A Z) = (X A Y) A Z 


3. Proprietà commutativa 

(5) 

( 6 ) 

4. Proprietà connesse alla 

(7) 

( 8 ) 


X V Y = Y V X 
X A Y = Y A X 


X = X 

{X V Y) =XAY 
(X A Y) =XVY 


(9) 




1.2 Eventi 


Un caso particolare di numero aleatorio è dato dagli eventi. Un evento E è un numero aleatorio 
tale che I(E) C {0,1}. Nel caso di eventi, dati due eventi E e F 1 E V F si dice somma logica 
e E A F prodotto logico. Si verifica facilmente che: 

1. E\/F = E + F- EF ; 

2. E A F = EF. 

Dato un evento E, si definisce complementare di E l’evento 

É = 1 — E 


Si ha che É = E. 

Dalle proprietà della”abbiamo 

(E V Fj = È A F = (1 - E)(l - F) = 1 - E - F + EF, 


da cui segue 


Analogamente 


E\J F = E + F - EF. 


(EWFWG) = ÉAFAG = (1 — E)(l — F)(l — G) = 1 -E-F-G + EF + EG + FG-EFG, 


da cui segue 

EVFVG = E + F + G-EF-EG-FG + EFG. 

Altre due operazioni fra eventi sono: 

differenza : E \ F = E — EF ; 

differenza simmetrica : E A F = (E \ F) V (F \ E). 

D’ora in avanti useremo il simbolo b per dire che la proposizione che segue è sicuramente 
vera. Per esempio, h 1 < F se sup I(X) < inf I(Y). 

Esiste una corrispondenza con le operazioni insiemistiche. Si pone 

E C F se b E < F, 

E = FseEcFeFcE. 

Definizione 1.3 Si definiscono le seguenti proprietà: 


1. Incompatibilità: E, F si dicono incompatibili se b EF = 0; 

2. Esaustività: Ei,...,E n si dicono esaustivi se b E\ + ... + E n > 1; 

3. Partizione: Ei,...,E n si dicono una partizione se b E\ + ... + E n = 1 (esaustivi e 
incompatibili). 




Esempio 1.4 Un evento E ed il suo complementare E sono una partizione. 

Siano Ex,..., E n eventi, per trovare una partizione si usa il metodo dei costituenti. Si 
definisce costituente di E \,..., E n l’evento 

Q = El---E* n 

dove E* è definito nel seguente modo 



In generale, non tutti i costituenti sono possibili. Sono possibili tutti i costituenti solo quando 
gli E % sono logicamente indipendenti. I costituenti possibili sono una partizione. Infatti 

1 = (Ex + Éx)... (E n + É n ) = Q 

Q costituente 

Dalla somma si possono escludere tutti i costituenti impossibili. 

Se Ex..... E n sono una partizione, allora i costituenti possibili sono: 

E\É'2J ' ' Én, 

É1E2É3 ■ ■ • É n , 

Ex • • • É n _xE n . 

In questo caso, il costituente È Y - ■ ■ É n non è possibile. 

Definiamo ora quando un evento è logicamente indipendente da altri eventi. I costituenti 
sono classificabili nel seguente modo rispetto ad un dato evento E: 

I tipo Q C E] 

II tipo Q c É; 

III tipo altrimenti. 

E è logicamente dipendente da Ex,...,E n se tutti i costituenti di Ex,...,E n sono del primo 
0 del secondo tipo. 

E è logicamente indipendente da Ex,...,E n se tutti i costituenti di Ex,...,E n sono del terzo 
tipo. 

Altrimenti E si dice semidipendente. 

Se E è logicamente dipendente da Ex,...,E n , si può scrivere 

E « 

q di I tipo 

QcE 


E = 
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Esempio 1.5 Consideriamo due eventi Ei,E 2 . L’evento somma logica E\ \J E 2 si può scrivere 
come 


E\ V E 2 — E\E 2 T É\E 2 -|- E\É 2 

In generale se un evento E è logicamente dipendente da Ei,...,E n se e solo se E si può scrivere 
come E = ^(E ll .... E n ) per qualche funzione <f>. 

Esempio 1.6 Supponiamo di effettuare cinque lanci di una moneta. Sia E, l’evento che 
corrisponde all’esito ”testa” all’i-esimo lancio. Posto Y = Ei + E 2 + E 3 + E 4 + E 5 , considero 
l’evento 

E = (Y > 3). 

E è semidipendente dai primi tre eventi. Infatti 

I tipo: E 1 E 2 E 3 C E ; 

II tipo: É\É 2 É^ C É] 

III tipo: ÉiE 2 É 3 . 


1.3 La previsione 

Dato un numero aleatorio X, cerchiamo un valore certo che esprima la nostra valutazione su 
X. In termini economici se pensiamo a X come a un guadagno aleatorio, vogliamo scegliere 
un guadagno certo che riteniamo equivalente a X. 

Seguendo l’impostazione di de Finetti (vedi ad esempio: B. de Finetti “Teoria delle Proba¬ 
bilità”, Einaudi), definiamo in modo operativo la previsione P(V) 1 che un individuo assegna 
ad un numero aleatorio X. 

Esistono due modi operativi equivalenti per definire la previsione: 

1. Metodo della scommessa: si pensa X come il guadagno (o le perdite) derivante da 
una scommessa. La previsione P(X) è allora il guadagno certo che si giudica equivalente 
alla quantità aleatoria X. 

Posto P(X) = K[X] = x, si accetta una scommessa pari a 

X(X - x) 

dove A G 1 è un coefficiente di proporzionalità. Il corrispondente criterio di coerenza 
è che non si possa scegliere x in modo che ci sia una perdita certa. Nella finanza 
matematica questo prende il nome di Principio di Non Arbitraggio. 

2. Metodo della penalità: si suppone di dover pagare una penalità pari a 

-X(X - f) 2 


1 Prende anche il nome di media , attesa o speranza , e si indica anche con E(X). 
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dove A G R è un coefficiente di proporzionalità. Si cerca x che minimizzi le perdite 
(criterio di minima distanza ). Tale x si dice previsione P(X) del numero aleatorio 
X. Anche qui vi è un criterio di coerenza: non deve esistere un valore x' tale che la 
corrispondente penalità sia sicuramente minore. 

Proposizione 1.7 (Proprietà della previsione) La previsione ha le seguenti proprietà: 

1. Monotonia: inf/(X) < P(X) < sup/(X); 

2. Linearità: se X = a\X\ + • • • + a n X n; allora P(X) = qjiP(Xi) + • • • + a n F(X n ). 

Dimostrazione. 

1. Monotonia : Supponiamo A > 0. x deve essere tale che non si abbia un guadagno certo 
od una perdita certa. 


x < inf/(X) —> si vince certamente 
x > sup I(X) — y si perde certamente 

Se A < 0, vale il viceversa. Ne segue che 

miI(X) < x < sup I(X). 

Tale proprietà si dimostra allo stesso modo se si usa il secondo criterio. 

2. Linearità : Per la dimostrazione, si procede utilizzando il principio di Non Arbitraggio. 
Consideriamo il numero aleatorio Z = X + Y. 

Posto A = P(Z), x = P(Al), y = P(T), sia G il guadagno 

G = c\(X - x) + c 2 (T ~ y) + c 3 (Z - z) = 

= (ci + c 3 )X + (c 2 + c 3 )Y - cix - c 2 y - c 3 z 
Scegliendo ci, c 2 , c 3 in modo tale da annullare la parte aleatoria 


Ci — c 2 — —c 3 , 

si ottiene il guadagno complessivo: G = c 3 (x + y — z). 

Per evitare vincite o perdite certe, dovrà essere x + y — z = 0, ovvero z = x + y. 

Se si procede invece con il secondo criterio, si è sottoposti ad una penalità (guadagno 
negativo) 

~[(X - x) 2 + (Y - y) 2 + (Z- z) 2 } = -[(X - x) 2 + (Y - y) 2 + (X + Y - ^) 2 ] 

Si cerca il punto P di coordinate (x, y, z) che ha minima distanza dal piano z = x + y. 
Per ogni punto P, la proiezione ortogonale P' di P sul piano z = x + y ha distanza più 



X .bt. 
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piccola di P dal piano. In base al principio di coerenza dovrà essere P = P', ovvero che 
P deve appartenere al piano z = x + y. Ne segue che z = x + y. 

Analogamente, per Z = aX. a € R, si ottiene z = ax. 

In generale, se X = a\X\ +-b a n X n , allora 

F(X) = «iPpQ) + ■ ■ ■ + a n F(X n ) 


□ 


La proprietà di monotonia si può descrivere anche nel seguente modo: 
bl>c^ F(X) > c; 

Se c\ < C 2 , h c\ < X < C2 =/■ c\ < P(X) < C 2 
h X = c=> P(X) = c. 

1.4 Probabilità di eventi 

Nel caso di un evento, la previsione F(E) si chiama probabilità di E. Dalle proprietà di 
monotonia e linearità, segue che: 

1. la probabilità di un evento è un numero compreso fra 0 ed 1, ovvero 0 < F(E) < 1. 

2. E = 0=> F(E) = 0 

3. E = 1=> F(E) = 1 

Quando E = 1, E si dice V evento certo. 

Si ha che: 

somma logica : F(E\ V E 2 ) = P(-Ei + E 2 — EiE 2 ) < P(£'i + E 2 )\ 
somma: F(Ei + E 2 ) = P(£'i) + P(£ , 2 )- 

Le due previsioni coincidono se e solo se Ei e E 2 sono incompatibili. In generale 

F(Ei V E 2 ^ ^ F(Ei -f - E 2 ) 

Per la monotonia della previsione si ha infatti che 

b Ei + E 2 — Ei V E 2 > 0 ==> F(Ei + E 2 - Li V E 2 ) > 0 
Per una partizione 

P E\ + • • • + ff ri = 1 => PCL/j) = 1 

La funzione che assegna agli eventi di una partizione le loro probabilità si dice distribuzione 
di probabilità. Se E dipende logicamente da una partizione di eventi {Ei 1 ..., E n } possiamo 
trovare la probabilità di E a partire da quella degli E t . 

V(E) = J2 P < S -) 

EiCE 

Vediamo ora un metodo operativo per calcolare la previsione. Sia X un numero aleatorio 
con I(X) = (rei, e sia Ei := (X = x*). Si ha che: 






i. i iiunicii cuccimii 


ì. 

F(X) = F(X(E 1 + --- + E n )) = 

= FiXEj + • • • + F{XE n ) = 

= EIE TO = EIE n^E z ) = EIE Xim) = 

= EIE XiF{X = Xi ) 

Basta infatti notare che XE Z è un numero aleatorio che assume il valore x z oppure 0. 
L’uguaglianza P(x,£'j) = XìP(Eì) è una conseguenza della proprietà di linearità della 
previsione. 

2. In generale, se I(X) è finito e <f> : R —> R vale che 

n 

P($(A0) = ^<h(x J )P(X=x J ) 

i =1 

La dimostrazione è analoga a quella del punto 1. 

Esempio 1.8 Sia X il numero rappresentante il risultato del lancio di un dado. Se ogni 
faccia ha la stessa probabilità di uscire, la previsione di X è data da: 

E* _ 6-7 _ 7 

IT “ (L2 “ 2 

Esempio 1.9 Sia X il numero aleatorio che rappresenta il il risultato del lancio di una moneta 
simmetrica. Indicando con /( X) = {0,1}, si ottiene che la previsione di X è data da: 

ppo = \ 

1.5 Partizioni in eventi equiprobabili 

In alcune situazioni, per ragioni di simmetria, è naturale attribuire la stessa probabilità a 
tutti gli eventi di una partizione, come nel caso dei giochi d’azzardo. Se E 1: ... ,E n sono gli 
eventi di una partizione con distribuzione uniforme , vale che 

P(£i) = - 
n 

Sia E un evento che dipende logicamente dalla partizione E 1: ... , E n . La previsione di E 
è data da: 



F{E) = P 



%{i\Ei C E} 


n 




si ottiene dunque la nota formula 


fi casi favorevoli 
ti casi possibili 

Tale identità è valida unicamente nel caso in cui gli eventi della partizione sono valutati 
equiprobabili. 

Esempio 1.10 Si effettuano n lanci di una moneta equilibrata. Sia X il numero aleatorio 
che rappresenta il numero di teste che si ottengono considerando n lanci. Sia E j l’evento 
corrispondente all’uscita di una testa all’i-esimo lancio. Considero l’evento 

E := (X = k) = Y,Q 

QcE 

dove Q = E{ ... E* sono i costituenti degli eventi Ei ... E n ; tali costituenti determinano una 
partizione e sono tutti possibili in quanto gli Ei sono tutti logicamente indipendenti. 

jj casi possibili = 2 • ... • 2 = 2 n =>- P(Q) = — 



jj casi favorevoli = 

Ne segue che 

Si cerca per quale k la probabilità P(X = k) è massima. Si ottiene che: 

n 

n pari : Il massimo valore di P(X = k ) si ha per k — —; 

Tl — 1 TI 1 

n dispari : Il massimo valore di P(X = k ) si ha per k = —-— e per k = —-—. 

Esempio 1.11 Si fanno n estrazioni con reimbussolamento da un’urna con H palline bianche 
e N — H palline nere. Sia X il numero aleatorio che conta il numero di palline bianche estratte. 
Si calcola 



F{X = k ) 


jj casi favorevoli 
jj casi possibili 


dove il numero di casi possibili è pari a N n ed il numero di casi favorevoli è pari a 


^ ^ H k (N-H) n ~ k . 

Si può pensare un costituente come una sequenza di palline bianche e nere. I casi fa¬ 
vorevoli sono quelli in cui tale sequenza presenta una pallina bianca in k posizioni; per cia¬ 
scuna di queste posizioni si può scegliere tra H palline bianche, essendo le estrazioni con 
reimbussolamento. 




Considerando invece delle estrazioni senza reimbussolamento, il numeri di casi possibili è 
dato da 

( N \ 


Possiamo infatti non tener conto dell’ordine in quanto l’evento considerato non dipende 
dall’ordine di estrazione delle n palline. Il numero di casi favorevoli è dato da 


N - H 
n — k 


Si devono infatti scegliere k palline fra le H bianche senza tener conto dell’ordine ed n — k 
palline fra le N — H nere senza tener conto dell’ordine. Alternativamente avremmo potuto 
tener conto dell’ordine (ovviamente sia nel conteggio dei casi favorevoli sia in quello dei casi 
possibili), ottenendo lo stesso risultato. 


1.6 Probabilità e previsione subordinata 

Si tratta della probabilità (e della previsione) subordinata (o condizionata) al verificarsi di 
un dato evento. Sia X un numero aleatorio ed H un evento. Per definire la previsione 
subordinata, si utilizzano due metodi operativi. 

1. Metodo della scommessa: 

La scommessa vale quando H si verifica, altrimenti è annullata e quindi il guadagno è 
uguale a 0. Si sceglie x sapendo che si può essere sottoposti ad una scommessa con un 
guadagno: 

G = A H(x — x) 

dove Àel rappresenta un coefficiente di proporzionalità, x si dice previsione subordi¬ 
nata di X rispetto ad H e si denota con P(Al \H). 

2. Metodo della penalità: 

Anche qui la penalità viene inflitta se H si verifica. Si sceglie x sapendo di dover pagare 
una penalità 

p = -H{X - I) 2 

x è previsione subordinata di X rispetto ad H e si denota con P(Af \H). 

Considero l’insieme dei valori possibili I(X\H) di X dato H. La previsione subordinata 
ha le stesse proprietà della previsione, ovvero: 

• I(X\H) C I{X) 

• inf I(X\H) < F(X\H) < supI{X\H) 

• F(X +Y\H) = F(X\H) + F(Y\H) 

• F(XX\ H) = \F(X\H) 




i. i . ruiiiiuid ucnc piuuauiiita uumpuoit; 
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1.7 Formula delle probabilità composte 


Vale la formula delle probabilità composte 

P (XH) = F(H)F{X\H) 

Per dimostrarla, si pongano z = P(XH), x = P{H) e y = P(X\H). Utilizzando il metodo 
della scommessa, si ottiene: 

G = Cl {H - x) + c 2 H(X -y) + c 3 (XH - z ) 

= H(c i + (c 2 + c 3 )X - c 2 y ) - cix - c 3 z 


Ponendo c 2 = —c 3 e C\ = c 2 y si ottiene 

G = —cix — c 3 z = c 2 (z — xy) 

Avendo annullato la parte aleatoria, per non avere arbitraggi, ovvero guadagni o perdite certe, 
si dovrà avere: 


z = xy 


In modo analogo, è possibile dimostrare la formula con il metodo delle penalità. 
Se F(H) > 0, vale 


F{X\H) 


P (XH) 
F(H) 


Se X è un evento, X = E, allora 


F{E\H) 


F{EH) 

F{H) 


Casi particolari: 

E C H => F(E\H) = 


H C E, ov\eroI(E\H) = {1} =*► F{E\H) = 1 

H C É, ovvero I{E\H) = {0} =► F(E\H) = 0 





1.7.1 Formula delle probabilità totali 

Sia Hi,.., , H n una partizione e X un numero aleatorio. Vale che: 

n 

P(V) = £>(X| Hì)F(Hì) 

Ì= 1 

Infatti, 


F{X) = F{X • 1) = F(X(Hi + ... +H n )) = 

n n 

P(V Hi +XH 2 + --- + XH n ) = ^F(XHi) = £>(X| Hì)F(Hì) 

2 = 1 2=1 


1.7.2 Formula di Bayes 

Siano E , H due eventi tali che P(if ) > 0. Vale la Formula di Bayes 


F{E\H) 


F{H\E)F{E) 

F{H) 


Dalla formula della probabilità condizionata si ha che F(EH) = F(H\E)F(E). Quindi: 


r(EH) P(/f|£)P(B) 

nm) W m) 


Esempio 1.12 Consideriamo un’urna di composizione ignota contenente N palline bianche 
e nere. Sia Y il numero aleatorio di palline bianche nell’urna. 

Gli eventi Hi = (' Y = i) determinano una partizione. Sia E l’evento corrispondente 
all’estrazione di una pallina bianca. Si calcoli la probabilità di E e la probabilità che nell’urna 
vi siano i palline bianche se si è estratta una pallina bianca, ovvero se si è verificato l’evento 
E. 

Si usa la formula delle probabilità totali per calcolare la probabilità di E 


N N 

p ce) = Y, = Y. 

2=0 2=0 

Se è nota la composizione dell’urna, la probabilità di E è data dal numero di palline bianche, 
cioè i casi favorevoli, diviso il numero totale delle palline, i casi possibili. 

Supponiamo ora che non si conosca la composizione dell’urna. Se si assume che gli Hi 

siano equiprobabili, cioè che sia P(if*) = ^ ^ , si ottiene: 

N . -, 

p(e) = y — 1 —_ = _ 

V ’ f^N(N + 1) 2 

Dalla formula di Bayes segue che 

T af z7\^- F(E\H i )F{Hi) _ 

N iV+1 _ 

F{Eì\E)- - i ~ N ( N + 1 ) 




-L.o. ^uiiciciZ;iuiit: ila. eventi 




1.8 Correlazione tra eventi 

Un evento E si dice correlato positivamente con H se 

F(E\H) > F(E) 

Analogamente, un evento E si dice correlato negativamente con H se 

F(E\H) < F(E) 

Se F(E\H) = P(-E'), si dice che E non è correlato con H ; in tal caso si dice anche che E ed H 
sono stocasticamente indipendenti. 

In questo caso, 1’informazione che H si è verificato non cambia la valutazione delle proba¬ 
bilità di E e viceversa. Se invece E è correlato positivamente con H , l’informazione che H si 
è verificato aumenta la valutazione della probabilità di E. 

Se F(H) > 0 e P(-E') > 0, si può dare una definizione simmetrica della correlazione. E e 
H si dicono 

• correlati positivamente se F(EH) > F(E)F(H) 

• correlati negativamente se F(EH) < F(E)F(H) 

• non correlati se F(EH) = F(E)F(H) 

Se P(-E') e F(H) sono entrambi positivi, la correlazione si dice simmetrica. Se E e correlata 
positivamente con if, si ha che E è correlato negativamente con H 

F(É\H) = 1 - F(E\H) < 1 - F(E) = F(É) 

Se E non è correlato con H 1 nemmeno E lo è. 

Esempio 1.13 Consideriamo un’urna con H palline bianche e N — H palline nere; si ef¬ 
fettuano due estrazioni. Si denotano con E±, E 2 gli eventi in cui si estratta una pallina 
bianca rispettivamente alla prima ed alla seconda estrazione. Nel caso di estrazioni con 
reimbussolamento, si ottiene 


p(«i)=f 

nev = f 


Infatti la composizione dell’urna è la stessa sia alla prima che alla seconda estrazione. Si 
verifica subito che le due estrazioni sono indipendenti (come ci si aspettava!) in quanto 

P(E 1 E 2 ) = ^=P(E 1 )P(E 2 ) 

Se invece si effettuano le estrazioni senza reimbussolamento 


nsv = § 
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F(E 2 ) = F(E 2 \E 1 )F(E 1 )+F(E 2 \É 1 )F(É 1 ) = 

H-1H H 

~ N-1N + N- r 1 ~W~N 

Le probabilità delle due estrazioni sono dunque le stesse, ma i due eventi risultano correlati 
negativamente in quanto 


= VTTf < v = p(£y 


per ogni H < N. 

\ 

E possibile estendere la definizione di indipendenza anche al caso di un numero n, generico, 
di eventi. E 1 ,... , E n si dicono stocasticamente indipendenti se per ogni scelta finita di indici 
{ii 7 ... , 4} in {1,.. ■ , n) si ha che 


(1) P(£„ •••£.,) = P(E i ,)---P(E i J 

Non basta verificare la (1) solamente per le coppie! 

Se E 1 ,... , E n sono stocasticamente indipendenti , anche E^,... . E* n sono stocasticamente 
indipendenti per ogni scelta possibile di E* fra E j ed E*. 

Sia H = {Hi,... , H n } una partizione; due eventi Ei, E- 2 si dicono stocasticamente 
indipendenti subordinatamente alla partizione H se 

Vi = 1,... n F{EiE 2 \H i ) = F(Ei\H i )F(E 2 \H i ) 


Esempio 1.14 Consideriamo un’urna con composizione incognita contenente N palline bian¬ 
che e nere. Sia Y il numero aleatorio che rappresenta il numero di palline nell’urna. Si ef¬ 
fettuano due estrazioni con reimbussolamento. Sia Ei l’evento ”esce una pallina bianca alla 
prima estrazione” e sia E 2 l’evento ”esce una pallina bianca alla seconda estrazione”. 

Consideriamo la partizione % determinata dagli eventi 


Hi = (Y = i) i = 0,... TV 


Si assume che P(L/j) 
H , ovvero 


1 

N + l' 


Gli eventi E\ ed E 2 sono stocasticamente indipendenti data 


F{EiE 2 \H i ) = F{Ei\H i )F{E 2 \H i ) 


per ogni i = 0,... iV.Infatti, se la composizione dell’urna è nota, le estrazioni con reimbusso¬ 
lamento non si influenzano reciprocamente. Ci si chiede se essi siano anche stocasticamente 
indipendenti. Si calcola 

1. La probabilità della prima estrazione 
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ZjI 


p(£i) 


N 

Y.nEimnHì) 

ì =0 


1 

N + l 
1 

N + l 


N 



N(N + 1) 
2 


1 

2 


2. La probabilità della seconda estrazione è pari a quella della prima perché si è già notato 

che = F(E 2 \H Z ). Quindi F(E 2 ) = P^) = ]- 

Zj 

3. 


N 


FfàEz) = Y.FiEiE^Filìi) 

i =0 

1 N 

' 1 i =0 

i w -2 

1 ^ ■v l 

N+ 1 ÌV2 


Per calcolare k 2 si utilizza il fatto che 

(n + l) 3 — n 3 = 3n 2 + 3n + 1 


Ne segue che k 2 


(iV + 1) 3 7V(7V + 1) 

3 2 


(iV + 1) 

3 


ed inoltre 


P(£’i£ , 2 ) 


2iV + 1 
6iV 


Tale probabilità tende ad ^ per N che tende all’infinito. Quindi F(EiE 2 ) ^ F(Ei)F(E 2 ) 

ovvero l’indipendenza stocastica rispetto ad una partizione non implica l’indipendenza 
stocastica. 


1.8.1 L’indipendenza stocastica attraverso i costituenti 

E,,... : E n sono stocasticamente indipendenti se per ogni costituente Q = E{---E * di 
Ei ,... , E n , dove 
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vale che 

(10) P(Q) = P(£*)---P(£*) 

Dimostrazione. 

=4>) Sia Q = E{ • • • E* n un costituente di E 1% ... , E n . Se si sviluppano i prodotti fra gli eventi, 
si ottiene che Q è dato da un polinomio $ in n variabili di grado 1 in ogni variabile 
calcolato in ... , E n . ovvero 

E{---E* n = <$>(E u ... ,E n ) 

Per esempio, se si considerano tre eventi E 1 ,E 2 ,E 3 , il costituente Q = EiE 2 E 3 = 
(1 — Ei)E 2 E 3 = E 2 E 3 — EiE 2 E 3 , ovvero si ottiene dal polinomio in tre variabili 
(f)(x i, x 2 , x 3 ) = x 2 x 3 — x\x 2 x 3 calcolato in Ei, E 2 . E 3 . 

Se gli Ei sono stocasticamente indipendenti, le probabilità dei prodotti si fattorizzano 
e si ottiene 


P(Q) = P($(£!,... ,E n )) 

= ^(F(E 1 ),... } F(E n )) 

= F(El)---F(E* n ) 

Ritornando all’esempio, si calcoli la probabilità di Q = E 1 E 2 E 3 . 

F(Q) = p(È 1 E 2 £ 3 ) 

= P {E 2 E 3 — E\E 2 E 3 ) 

= F(E 2 )F(E 3 ) - F(E 1 )F(E 2 )F(E 3 ) = <h(P(£i), F(E 2 ), F(E 3 )) 

-4=) Viceversa, si supponga che valga (10). Dati E 1: ... ,E n essi sono stocasticamente indi- 
pendenti se e solo se per ogni scelta di indici ii,. .. , i k in { 1 ,..., n} vale che 

F(E h ...E ik )=F(E n )...F(E ik ) 

Usando i costituenti, si ha che: 


F{Ei i • • • Ei k ) 


r { E o] 

\Q cE h'"Ei k ) 

P(B„ ) • ■ ■ P(S,J ■ v (p(B^_ )... P(£^ )) 


La sommatoria nell’ultimo termine deve essere considerata su tutte le possibilità in cui 
si possono presentare gli altri (N — k) eventi. Tale sommatoria vale quindi 1, da cui la 
tesi. 




1.0 


^uneiciz,iuiie ti a eventi 


ZjO 


□ 
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Capitolo 2 

Distribuzioni discrete 

2.1 Numeri aleatori con distribuzione discreta 

X numero aleatorio si dice con distribuzione discreta se la cardinalità dell’insieme dei valori 
possibili I(X) è finita o numerabile; la distribuzione di probabilità di X è data da 

F(X = Xi) = p{xi) Xi e I(X) 

2.1.1 Schema di Bernoulli 

Sia una successione di eventi stocasticamente indipendenti ed equiprobabili, ovvero 

tali che P(-E'j) = pMi E Af 1 con 0 < p < 1. Indipendenti vuol dire che, per ogni n, Ei 1 ..., E n 
sono stocasticamente indipendenti. Tale successione prende il nome di schema di Bernoulli. 

Esempio 2.1 Un esempio di schema di Bernoulli è dato dalla successione di numeri aleatori 
che rappresentano il risultato dei lancio ripetuto di una moneta simmetrica. 

2.1.2 Distribuzione binomiale 

Dato ( Ei) ie j v uno schema di Bernoulli, sia S n il numero aleatorio che conta i successi ottenuti 
su n prove. S n si può scrivere come 

S n = Ei + ... + E n = il numero di successi su n prove 

L’insieme dei valori possibili per S n è quindi I(S n ) = {0,... ,n}. 

Calcoliamo, attraverso i costituenti, la distribuzione di probabilità di S n . 

P (S n = k)= Y, P (<2) 

Qd{Sn = k) 

Per esempio, un costituente del primo tipo dell’evento ( S n = k) è 

Q = E\ • • • EkÉk + i • • • É n 

che rappresenta l’evento in cui i k successi si sono ottenuti con le prime k prove, mentre 
le restanti corrispondono ad insuccessi. 
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Analogamente, ogni altro costituente di (S n = k ) conterrà k eventi che si sono verificati 
ed (ri — k) che non si sono verificati. Poiché gli E t sono iid 1 , si ottiene che ogni costituente Q 
ha la stessa probabilità, pari a 

p (Q) = p^p (1 _ p) • • • (1 _ P \ = P*(l - pT~ k 
k volte (n-k) volte 


Basta quindi contare quanti sono tali costituenti: essi sono 



, pari al numero di modi 


di scegliere i k posti degli eventi che si verificano nella sequenza degli n eventi che compongono 
il costituente stesso. Si ottiene quindi 


p(«.=*,=(;) Ai-rt- 

Si dice che S n ha distribuzione binomiale B(n,p) di parametri n,p. 

Si verifica che Y2k=o^(^n = k) = 1. Infatti, utilizzando le proprietà del binomio di Newton, 
si ottiene: 

È( l ) p*(i-p)"-* = (p+i-p)" = i 

k=0 ' ' 

Calcoliamo infine la previsione di X sapendo che X = E\ +-b E n : 


n 

P(X) = P(Ex + • • • + E n ) = HEi) = Tip 

Ì =1 

Esempio 2.2 Consideriamo un’urna contenente N palline, di cui H bianche ed N — H 
nere. Si fanno delle estrazioni con reimbussolamento. La successione (. Ei) ie j\j di eventi 
Ei = (si ottiene una pallina bianca all’i-esima estrazione) è uno schema di Bernoulli, mentre 
il numero aleatorio che conta il numero di palline bianche ottenute nelle prime n estrazioni 

ha distribuzione binomiale di parametri B(n, —). Si veda l’esempio 1.11. 


2.1.3 Distribuzione geometrica 

Sia Ei uno schema di Bernoulli; sia T il numero aleatorio che rappresenta l’instante del primo 
successo in una serie di prove, ovvero T = inf{n \E n = 1}. L’insieme dei valori possibili per 
il numero aleatorio T è dato da: 

/(T)=JV\{0} 

L’evento (T = i) si può scrivere in termini degli Ei come 

(T = i) = É i • • • Éì_\Eì 
Calcoliamo la distribuzione di probabilità: 

P (T = i) = P • • • Éi-iEi'j = P (Èx) • • • P (Éì-x) P (Eì) = (1 - p) l ~ l p 


1 si indica con iid la proprietà di essere indipendenti e identicamente distribuiti. 
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£i I 


Si dice che T ha distribuzione geometrica di parametro p. Utilizzando la somma della serie 
geometrica, si verifica che: 

+oo +oo +oo 1 

5Z P ( T = *) =J2( 1 -Py~ 1 P =P- 1 _ (1 _ v) = 1 

i =1 i =1 k=0 ' P' 

Si calcola la previsione di T utilizzando la formula 


+oo 


+oo 


p ( T ) = iF ( x = ®) = - p Y 1 p=p^j ì( ^ - p) % 1 = p-^ = ^ 


i= 1 


i =1 


i= 1 


+oo 


dove si è utilizzando il fatto che per la serie geometrica x l vale 


i =0 


+ CX3 


d 


E “- 1 = E sM = Ì(E -•) = = (T^f 

i =1 j=l i=0 v 7 

La distribuzione geometrica gode della proprietà di “assenza di memoria”. Vale infatti 


che 


P(T >m + n|T>n) = P(T > m) 

per ogni m, n E A f. La proprietà di assenza di memoria ci dice che la probabilità di 
non avere un successo fino all’istante m + n se non si era ancora ottenuto un successo fino 
all’istante n. è pari alla probabilità di non avere un successo fino all’istante m. Per dimostrare 
tale proprietà, basta osservare che 


P(T > m + n | T > n) 


P(T > m + n,T > n) 
P(T > n) 


P(T > m + n) 
P(T > n) 


e che P(T > n) = (1 — p) n in quanto l’evento (T > n) si verifica se e solo se i primi n 
eventi non si verificano. Ne segue allora che 


P(T > m + n \ T > n) 


P(T > m + n) 
P(T > n) 


(1 - p) m+n 

(1 ~p) n 


(1 - p) m = P(T > m) 


2.2 Distribuzione di Poisson 

Un numero aleatorio X si dice avere distribuzione di Poisson di parametro A, A € R + , se 
I(X) = AT e vale che 


F(X =i) = ^e“ A 
il 

+oo 

Si verifica che si ottiene una distribuzione di probabilità, ovvero che ^P(Af = i) =1. Si 

i =0 


ha che 
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+00 


A % -r^ A % 

E p (* = 0 = E 7r e " A = e_A E 7T = e_v = 1 

i= 0 i=0 L ' i=0 L ' 


Calcoliamo la previsione di X : 


+°° ^ k 


p(x) = y. <nx = i) = Y 4 e_i = Ae ~ A E t4w = Ae_i E ir = Ae_Aei = A 


i =0 


i=0 


tf «-!)' 


k =0 


2.3 La distribuzione ipergeometrica 

Si consideri un’urna contentente JV palline di cui bianche ed N — H nere. Si fanno n 
estrazioni senza reimbussolamento. Sia X il numero aleatorio che conta il numero di palline 
bianche nel campione. 

Il minimo numero di palline bianche fra le n estratte sarà pari a 0 se nell’urna le palline 
nere sono più di n, mentre sarà dato da n — (N — H) se una volta scelte tutte le palline 
nere rimarranno da determinare ancora degli elementi del campione. Viceversa, il numero 
massimo di palline bianche nel campione è dato dal minimo fra n ed il numero massimo di 
palline bianche nell’urna, ovvero H. Si ottiene che 

I(X) = {n — nV (N — H), -• • ,nV H} 

Sia i G I(X). Si vuole calcolare la distribuzione di probabilità di X utilizzando la formula 

Jt casi favorevoli 
jj casi possibili 

Il numero di casi possibili coincide con il numero di modi di scegliere n palline fra le N 
presenti nell’urna senza ripetizione e senza tener conto dell’ordine, ovvero 

ti casi possibili = 

Per avere i palline bianche nel campione, bisogna prendere i palline bianche fra le H 
contenute nell’urna e scegliere le restanti (n — i) fra le (.N — H) nere. Ne segue che 

t) casi favorevoli = 

Si dice che X possiede distribuzione ipergeometrica e vale che 





F{X = i) 



( N -H 
\ n — i 



Sia Ei l’evento E t = (esce una pallina bianca alla i-esima estrazione), 
ottenere una pallina bianca alla i-esima estrazione è data da 


La probabilità di 
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AD 


jj casi favorevoli HD^_^ H 

jj casi possibili N 

Infatti, se si considerano le n palline estratte come ordinate in una n-upla, il numero di 
casi favorevoli è dato dalle n-uple ordinate che hanno una pallina bianca all’«-esimo posto, 
mentre il numero dei casi possibili sono tutte le n-uple ordinate di n elementi scelti su N. 
Poiché X = Ei H-f- E n , usando la linerarità della previsione si ottiene 

n ^ 

P(X) = £>(£*) = n- 

i= 1 



2.4 Indipendenza di partizioni 

Si considerino due partizioni: 

n = (H 1 ,... ,H m ) 

C — (Li ,... , L n ) 

HeC si dicono stocasticamente indipendenti se per ogni i, j tali che l<«<m, 1 < j < n 
vale 

F(H i L j ) = F(H i )F(L j ) 

Date r partizioni Hi,... ,H r , ciascuna formata da n, (i = 1,..., r) eventi, esse si dicono 
stocasticamente indipendenti se per ogni scelta di indici i\,... ,i r tali che 1 < i\ < ni,... , 1 < 
i r < n r vale 

p (4 11 • • • *£>) = p (4 11 ) • • • p (//<;>) 

dove G Hk, k = 1,... ,r. Si può pensare ad una partizione come ad un plurievento. 

2.5 Schema di Bernoulli generalizzato 

Siano 'Hi,... ,H. n partizioni contenenti lo stesso numero di eventi, Hi 
(i = 1,... ,n), tali che per ogni i valgano 

1. Mj = 1,... ,r P (eV) = Pj 

2. pi + • • • + p r = 1 

Si suppone che Hi,... ,H n siano stocasticamente indipendenti. Si parla in questo caso 
di schema di Bernoulli generalizzato. La definizione si estende ad una successione infinita di 
partizioni (' Hì)i richiedendo che Hi,... ,H m soddishno le condizioni predette per ogni m. 






ou 
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2.6 Distribuzione multinomiale 

Consideriamo li,... , Y r numeri aleatori definiti come 

n 

Y< = E E < k> 

k=l 


Ne segue che 

r r n n r 

E y - = EE^ , = EE^* , =» 

i 1 i 1 fc • 1 k= 1 i 1 

1 

Si calcola 

P(U = * 1> -..,51 = M= E p w>= A 

Q I tipo v ---'' P(Q) 

numero di costituenti 

La distribuzione multinomiale dipende dal parametro r e dalle probabilità pi, ■ ■ ■ ,p r -i 
(p r è determinabile conoscendo le altre r — 1 probabilità). Per r = 2 si ha la distribuzione 
binomi ale. 


2.7 Indipendenza stocastica per numeri aleatori 

Siano A e Y due numeri aleatori con /(A) = {xi, ... , x m } e I{Y) = {y ll ... , y n }. Considero 
le partizioni H generata dagli eventi Hi = (A" = x i ) 1 Xi E /(A), e C generata dagli eventi 
L j = (Y = y j ),y j <iUy),. 

X e Y si dicono stocasticamente indipendenti se lo sono le partizioni H e C. 


2.8 Distribuzione congiunta 

Consideriamo il vettore aleatorio (A, Y) con insieme dei valori possibili I(X,Y). Si definisce 
distribuzione congiunta di (A, Y) la probabilità 

P(A = Xi ,Y = yj ) 

dove ( x i: yj ) E /(A, Y). Si può associare alla distribuzione congiunta la matrice 

( p{x ll y 1 ) ■ • • p{x ll y n ) \ 

\p{xm,yi) ■■■ p{x m ,y n ) ) 

dove p(x il yj) = P(A = x il Y = yj). Si definisce distribuzione marginale di A 

Pi{xì) = P(A = Xi) 

Tale distribuzione marginale si ottiene dalla congiunta nel modo seguente: 
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01 


n n n 

Pi(xì ) = P(A = Xi) = J^P(A = Xi\Y = j/j)P(y = Vj) = J^P(A = x it Y = %•) = ^p(g.,yj) 

i=i i=i i=l 

Analogamente, si definisce la distribuzione marginale di Y 

m 

Mvj) = F ( y = Vj) = X>(*«, 

i =1 

Ne segue che due numeri aleatori sono stocasticamente indipendenti se e solo se 


(1) V(i,j) p(xi,yj) = Pi(xi)p 2 (yj) 

Data ip : R 2 —^ K, la previsione del numero aleatorio Z = ip(X 1 Y ) si ottiene utilizzando 
la distribuzione congiunta di (A, F) nel modo seguente: 

P(Z) = ¥(ìp(X, Y)) = 1>{xi,Vj)nX = Xi, y = Vj) 

(xi,yj)el{X,Y) 

La dimostrazione è analoga al caso unidimensionale. 


2.9 Covarianza e varianza 

Dati due numeri aleatori X e Y, si definisce covarianza di X e Y 

cov(A, Y) = P ((A - P(A))(y - P(y))) 

A e Y si dicono 

• correlati positivamente se cov(A, Y) > 0 

• correlati negativamente se cov(A, Y) < 0 

• non correlati se cov(A, Y) = 0 
Sviluppando la formula precedente, si ottiene 

cov(a, y) = p(ay - p(A)y - AP(y) + p(A)p(y)) = p(aa) - p(a)p(a ) 

La varianza è definita come 


a 2 (A) = cov(A, A) 

Si ottiene che a 2 (A) = P(A 2 ) - P(A) 2 ovvero a 2 (A) = P((A - P(A)) 2 ). Se a 2 (A) è 0, 
allora A è una costante, ovvero tutta la probabilità è concentrata nella previsione P(A). 
Data la varianza, si introducono inoltre 
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• Scarto quadratico medio : 

a(X) = y^HX) 

• Previsione quadratica : 

Pq(A') = VPIÀ 5 ) 

Proposizione 2.3 (Proprietà della covarianza e varianza) La covarianza e la varianza 
rispettano le seguenti proprietà 

1. La covarianza è bilineare, ovvero 

cov(X + Y, Z ) = cov(X, Z ) + cov(Y, Z) 

2. cov(aX + b, cY + d) = ac cov(X, Y) 

3. a 2 (aX + b) = a 2 a 2 (X) 

Dimostrazione. 

1. Basta utilizzare il fatto che cov(X, Z) = P(XZ)—P(X)P(Z) e la linerità della previsione. 
Si ottiene 


cov(X + Y, Z) 


P[(X + Y)Z\ - P(X + Y)P(Z) 

p(xz + yz) - [P(x) + p(y)]p(z) 
p(xz) - p(x)p( z) + p (yz) - p(y)p(z) 

cov(X, Z) + cov(y, Z) 


2. Basta utilizzare la definizione di covarianza 

co v(aX + b,cY + d) = P ((aX + b - P(aX + b)) (cY + d - P(cY + d))) 

= P{{aX + b- dP(X) - b) ( cY + d- cP(Y) - d)) 

= p (a (x - p(x)) c (y - p(y))) 

= ac cov(X, Y) 

3. Segue immediatamente dalla 1) sostituendo (cY + d) con (aX + b). 


□ 
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2.10 La varianza nelle distribuzioni discrete 

Si calcola ora la varianza per le distribuzioni discrete viste in precedenza. 
1. La varianza nella somma di numeri aleatori 


Proposizione 2.4 Siano Xi,... . X n n numeri aleatori. Si ha che 


a 2 (Ad + • • • + X n ) - y> 2 (A„) + cov(Xi,Xj) 


i =1 


hJ 
« ¥=3 


Y.o' 2 ^) + 2Y J cov{X l ,X j ) 

i<j 


i= 1 


Dimostrazione. 


p ((£ x <-E p «)) 2 ) = 

= P [((A, - P(Ad)) + ...+(X n - P(A n ))) 2 ] = 

n 

X>(«-P«)) 2 ) + V Pttli-PWlft-Pft))) 

- V V ■ „ ■ ✓ 


a 2 {Xi) 


h3 
« ¥ 3 


co \(Xi,Xj) 


□ 


2. Varianza di un evento 

v 2 (Ei) — P (Ef) — P (Ei) 2 = p(l — p) 

3. Distribuzione binomiale: Si utilizza la rappresentazione X = E\ + ... + E n , dove gli Ei 
sono stocasticamente indipendenti. Si ottiene: 


a 2 (E 1 + ... + E n ) = s ^2,a 2 (E i ) = np{ 1 - p) 

Ì — 1 

4. Distribuzione geometrica : sapendo che <r 2 (A) = P[A 2 ] — P(A") 2 , basta calcolare 




Si ottiene 


Infine 


P(A 2 )=pJfa(l- p)- 1 = pjj(i-l)(l-p)— +P(A') 

fa 1 \ fai / 

= (j>(l-p)£>(*-l)(l] +PP0 


= p( 1 -p)^(-£ ì (i-p>‘' 1 ) + p w 


2(1 ~p) 1 

P 2 P 
2 1 

P 2 P 


a 2 (X) = F[X 2 ]-F{X) 2 = 4-i-i 

p 2 p p 2 

1 1 

p 2 p 


Per la distribuzione geometrica la varianza è data da 


. 2 ,,-, _ (1 — P) 


a\X) = 


5. Distribuzione di Poisson : Se X ha distribuzione di Poisson di parametro A, si calcola 


P(X 2 ) = £ * 2 p(a = ì) = £ ì 


fafa = fa 


£[« 2 -i) + 


+°° 2 ~r°° 1 ~t~°° \k 

A 2 e~ A E] ———y + Ae~ A E* . = AfaEE + A = A 2 + A 

fa(2-2)! 


Si ottiene che la varianza è data da 


a 2 (X) = P(Af 2 ) - P(À") 2 = A 2 + A - A 2 = A 
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6. Distribuzione ipergeometrica : Nella stessa notazione della sezione 2.3, si utilizza la rap¬ 
presentazione X = Ei + ... + E n . Tali eventi non sono stocasticamente indipendenti e 
risultano correlati negativamente. Infatti, se H < N per ogni scelta di i ^ j G {1,..., n} 
si ha 


co v(Ei, Ej) = V{EiEj) - ¥{Ei)¥{Ej) = < 0 


in quanto 


P (EiEj) - P (Ei | Ej)F(Ej) 


d n-i n N -1 N 


La varianza di X si ottine utilizzando la formula della varianza della somma di n numeri 
aleatori 


a 2 (X) = J> 2 (^)+ J2 coy ( e ì, Ej) 

1 = 1 i,j 

* + 3 


H, 

V 1 


H H — N _ N — n H 
W + 2 iV2 N- 1 ~ n N-lN 


D n — 
u 2 — 


ni 


. conta il numero numero di elementi nella sommatoria ì,j co \{E^Ej) 
yn-2)\ in¬ 


cile corrisponde al numero di coppie ordinate di elementi distinti scelti su n. 


2.11 II coefficiente di correlazione 


Dati due numeri aleatori X, Y, si definisce coefficiente di correlazione di X , Y 

o(x Y ) - C0V ( X ’ F ) 
p X,i ~ cUQoW) 

Le proprietà del coefficiente di correlazione sono: 

1. p(aX + b. cY + d) = segno (ac) p(X, Y) 

Utilizzando le proprietà della covarianza si ha che: 

cov(aX + b, cY + d) 


p(aX + b, cY + d) 


yja 2 (aX + b) a 2 (cY + d) 
ac co\(X. Y) 

' ac\ ^[Xj^ffiV) 


segno (ac) p(X , Y) 


^1 tu 


OU 




2. -\<p{X,Y)<\ 

Si considerano i numeri aleatori standardizzati 

_X- T(X) Y - P(y) 
a(X) a(Y) 

Dalla proprietà 2 della Proposizione 2.3, si ha che 


cov(X*, Y*) = P (X* Y*) 


p{{x -p(x))(y-p(y))) 


P(X,Y) 


Calcolando la varianza di X* + Y* si ottiene 


a 2 (X* + Y*) = a 2 (X*) + a 2 (Y*) + 2cov(X* y Y*) = 2 + 2co <v(X*,Y*) = 2 + 2 p(X,Y) > 0 
Mentre dalla varianza di X* — Y* segue che 

a 2 (X* -Y*) = 2 - 2 p(X, Y) > 0 


Quindi vale 


-1 < p(X,Y) < 1 


2.12 Non correlazione ed indipendenza stocastica 

Consideriamo due numeri aleatori X e Y con distribuzione congiunta discreta data da 

Pij = P(X = x u Y = yj) 

e distribuzioni marginali rispettivamente date da 

Pi = P(X = Xi) i = 1,... ,m 

qj = IP(r = tjj) j = 1,... , n 

X e Y sono non correlati se e solo se 

P(XY) = P(X)P(Y) 


ovvero se e solo se _ 

x iVjPi,j = XiPi y i q i 

i,3 « 3 

Inoltre, devono valere le relazioni: 


Y,ìPì = 1 J2jPij=Pi 
Ej <h = 1 J2 ì pì,3 = Q3 v i 

Pi,3 = 1 

i,3 




Affinché A e Y risultino non correlati ed abbiano le Pi,qj come distribuzioni marginali, su 
mn — 1 parametri indipendenti bisogna imporre 1 + (m — 1) + (n — 1) condizioni. Si ha 
mn — 1 — (m — 1) — (n — 1) = (m — l)(n — 1) — 1. 

Le m+n — 1 condizioni sono sufficienti a garantire la non correlazione, mentre l’indipenden¬ 
za stocastica richiede la determinazione di (mn — 1) variabili. Ne segue che, per l’indipendenza 
stocastica, esistono delle soluzioni diverse da p t] = p^j. Segue immediatamente che la non 
correlazione non implica in generale l’indipendenza stocastica. Se m = n = 2 allora il numero 
di relazioni è pari al numero di variabili; quindi, due eventi sono non correlati se e solo se 
sono stocasticamente indipendenti. 

Si verifica che l’indipendenza stocastica implica invece la non correlazione. Se X, Y so¬ 
no due numeri aleatori stocasticamente indipendenti con distribuzione discreta congiunta 
Pij = P(A = Xi, Y = yj). la loro covarianza cov(A, Y) si calcola nel modo seguente: 


cov(A, Y) = P(AA) - P(A)P(F) 


= * 
i,j \ i / \ j 

= XiPi ) ( S 

i,j \ i / \ j 


in quanto la distribuzione congiunta di due numeri aleatori stocasticamente indipendenti 
è data dal prodotto delle distribuzioni marginali Pi,qj (proprietà (1)). 

2.13 La disuguaglianza di Chebichev 

Valgono le seguenti disuguaglianze, dette di Chebichev: 

1. Sia X numero aleatorio tale che Pq(X) > 0. Per ogni t, > 0 vale che 

P(|A'|>tFe(A'))<i 

2. Sia X numero aleatorio con <J 2 (X) > 0. Posto m = P(X), per Vi > 0 si ha che: 


P(|A" — m\ > a(X)t) < 


Dimostrazione. 


1. Sia E l’evento E = (|A| > ìPq(X)). Calcoliamo P(A 2 ) con la formula delle probabilità 
totali: 


P (A 2 ) = P (A 2 ) E) F{E) + P (a 2 |£) P (e) 
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Per la proprietà di monotonia della previsione, si ha che P yX 2 \Éj > 0 in quanto X 2 è 
un numero aleatorio sempre positivo. Ne segue che 

P (X 2 ) > P (X 2 \E) ¥(E) > t 2 P Q (X) 2 F(E) 

Poiché P Q (X) 2 = P(X 2 ) si ottiene 

V(E) < i 

ovvero 

P(|X|>«/> 0 (X))<i 

2. La seconda disuguaglianza segue dalla prima sostituendo ad X il numero aleatorio Y = 
X — m. 


□ 


2.14 La legge debole dei grandi numeri 

Teorema 2.5 Sia (. X n ) n ^ una successione di numeri aleatori a due a due non correlati con 
stessa previsione P(X 4 ) = m e varianza (J 2 (Xì) = a 2 . 

Posto S n = X i + ... + X n , si ha che 

VA > 0 lim P ( I — — mi > A ) = 0 

n^+oo \ n ) 


Il numero aleatorio — si dice media campionaria, 
n 

Dimostrazione. Si dimostra il teorema utilizzando la seconda disuguaglianza di Chebi- 

S 

chev. Si calcola la previsione di — 

n 


P 


'-'ra 

n 


n 


(P(*i) + ... +P {X n )) = m 


e la varianza di 


n 


(t) = è ff2(S " ) = ;?5> 2 M + È cov(^,i- 

^ / * =1 ij=l téj 


)) 


a 

n 


Dalla seconda disuguaglianza di Chebichev 




o la 2 

Posto A = —=i, si ricava — = ——. Ne segue che 
\Jn t 2 nX 2 


S n I -> ^ <r 
- m\ > A < —— 

n J n X 2 


'n—H-OO 


Esempio 2.6 X t = E\ eventi non correlati con P(-ÈA) = p. Dalla legge dei grandi numeri 
segue che 


V n 


'n—t+oo 


In questo caso — = - prende il nome di frequenza. Per un numero grande 

n n 

di prove, la frequenza approssima la probabilità di un evento. 
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Capitolo 3 


Distribuzioni assolutamente continue 
uni-dimensionali 

3.1 Funzione di ripartizione 

Dato un numero aleatorio X, si introduce la funzione di ripartizione (o distribuzione) F di 
X data da 

F: K —> [0,1] 

F (x ) = F(X < x) iéK 

Assegnare la distribuzione di probabilità di X significa specificare la sua funzione di riparti¬ 
zione. 

Esempio 3.1 (Caso discreto) Si può parlare di funzione di ripartizione anche nel caso di 
numeri aleatori con distribuzione discreta. 

F{x) = P(X < x ) = F ( X = x i) 

Xi<x 

Se si conosce F. si può calcolare la probabilità degli intervalli 

P(a < X < b) = F(b) - F(a ) 

Proprietà 

1. 0 < F(x) < 1 (per definizione) 

2. monotonia-. F(b) > F(a) se b > a in quanto F(b) — F(a) = P(o < X < b) > 0 

3. continuità a destra: F(x) = lini F(y) 

y—tx+ 

4. lim F{x) — 1 

x —>+oo 

5. lim F(x) = 0 

x—ì—oo 


41 
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Le condizioni 3., 4., 5. sono proprietà aggiuntive di regolarità che saranno sempre verificate 

v 

nei casi che considereremo. E possibile considerare casi in cui non valgono. Poiché F è 
monotona e limitata, il limite a sinistra esiste ed è finito. Nei casi che considereremo, tale 
limite è dato da: 


F(x ) = lini F(y) 

y^rx~ 

= lim P(X < y ) 

y—>x~ 

= F(X < x ) 

Da cui P(X = x) = F(x) — F(x~). 


3.2 Distribuzioni assolutamente continue 

Sia X un numero aleatorio con insieme dei valori possibili I(X) = R, ovvero I(X) = [a, b) C 
R 1 . Si dice che X ha distribuzione assolutamente continua se esiste / : R^R con le seguenti 
proprietà: 

1. Vx e R, f(x) > 0; 

2. / sia integrabile ; 

3 - f R f( s ) ds = 1 - 

tale che 


F(x) = f f(t)dt 

J — OO 


Tale funzione si dice densità di probabilità. Si noti che la / non è unica. Infatti, se 
cambiamo la / in un punto, la nuova funzione è ancora una densità di X. 

Date la funzione di ripartizione e la funzione di densità di probabilità, vale la seguente 
uguaglianza: 


f(x) 


dF_ 

dx 


nei punti in cui / è continua. 

Dall’ipotesi di regolarità 4. si ottiene 


1 


lim 

£—>■+00 



f{s) ds 


Se / è continua nell’intervallo [a, 6], dal teorema del valor medio, esiste £ G (a, b) 


1 Eventualmente, l’intervallo può essere anche infinito. 
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^to 


P(o < X < b) = F(b ) - F{a) 
= £/(s)ds 

= Ì(0(b~a) 


da cui 


/( O ( 6 - a )> 0=^/>0 

Si noti che la probabilità degli intervalli si calcola come: 

P(a < X < b) = F(b) - F(a) 

/ b ra 

f(s)ds- / f(s) 

■oo J — oo 


d s 


' —oo 
r*b 


f f(s) 

J a 


ds 


Per quanto riguarda il calcolo della previsione nel caso assolutamente continuo, essa è data 


da 


/ +oo 

xf(x)dx 

-OO 


In generale, vale la formula 

/ +oo 

df(x)f(x)dx 

-OO 

dove dt : R —> R è una funzione integrabile. Ne segue che la varianza si ottiene come 

a 2 (X ) = P(X 2 ) - P(X) 2 

/ +oo / r+oo \ 2 

x 2 f(x) dx-i xf(x)dx) 

■oc \J —OO / 


3.3 Distribuzioni assolutamente continue unidimensio¬ 
nali 

3.3.1 Distribuzione uniforme in [0,1] 

Un numero aleatorio X ha distribuzione uniforme in [0,1] se la sua funzione di distribuzione 
è data da 

{ 0 x < 0 

x 0 < x < 1 

1 x>l 

La probabilità di un singolo punto è 

P(X = x) = F{x) - F(x~) = 0 




La densità di probabilità si definisce come 


f(x)=F'(x)= l 1 

1 » 


x < 0 
0 < x < 1 
x > 1 


Come nei casi seguenti, il valore della densità nei punti di discontinuità può essere scelto 
in maniera arbitraria. 


3.3.2 Previsione 

La previsione della distribuzione uniforme è 


P(V) = f xf(x)dx = f xdx = 

ii J o 


£ 2 1 1 1 


2 J o 2 


Varianza 

La varianza è 


w = r 

J 0 


x 2 dx-] = \-] = ^- 
4 3 4 12 


3.3.3 Distribuzione uniforme su un intervallo qualunque [a, b] 

Un numero aleatorio X ha distribuzione uniforme in [a, b] se la sua funzione di distribuzione 
è data da 

r 0 x < 0 

F{x ) = c(x — a) a < x < b 

1 x > 1 

Per calcolare la costante c: 


F(b) = 1 =4> c{b — a) = 1 =>• c = 


b — a 


Previsione 

La previsione della distribuzione uniforme è 


ppo = f 

J a 


dx = 


„2 1 b 


b-a [2(ò — a)\ a 2 


n + b 


Varianza 

La varianza è 


! (Jf ) = P((.Y - P(X)) 2 ) =J*J-( X - ?±U 


1 1 
b — a 3 


o + ò 


(6 — a) 2 




3.3.4 Distribuzione esponenziale di parametro A 

Un numero aleatorio X ha distribuzione esponenziale di parametro A se la sua funzione di 
distribuzione è data da 




x > 0 
x < 0 


La densità è data da: 


f(x) = F'(x) 


x > 0 
x < 0 


Se attibuiamo ad X il significato di un tempo aleatorio in cui si verifica un fatto (ad 
esempio l’istante di decadimento di un atomo), la distribuzione esponenziale ha la proprietà 
di assenza di memoria , ovvero dati x, y > 0 

F(X >x + y\X>y) = F(X > x) 


P(X > x + y\X > y) = 


F(X > x + y, X > y) 

nx > y ) 

F(X > x + y) 

nX > y ) 

e ~X{x+y) 

e~ x y 
= e~ Xx 
= F(X > x) 


Previsione 

La previsione della distribuzione esponenziale è 


r+oo p-\ 

F(X)= / Xxe~ Xx dx= [-xe- Xx ]+°° + / 

J 0 J 0 


e~ Xx dx = 


Varianza 

La varianza della distribuzione esponenziale è 

a 2 (X) = P(V 2 ) - P(V) 5 


r*+00 -l 

\ J2-\x A 


\x e~ dx - 


[—zv^r+2 / 

J 0 


+oo -j 

xe _A:c dx — — 


2 1 

V _ V 

1 

V 




3.3.5 Distribuzione normale 


Un numero aleatorio X ha distribuzione normale standard (si indica con la notazione N( 0,1)) 
se la sua funzione di densità è 

f(x) = Ke~^ ,igR 


Calcolo della costante K 


\ 2 f f _■?£ _sd 
e 2 di = / / e 2 e 2 dxdy 

: / JrJr 

f - x 2 +v 2 , , 

= e 2 dxdy 

ii 

n + OO 2 

pdpd# 

. 

/■+00 

= 27r / e z pdp 

J o 

r +oo 

= 27T — e 2 

J o 

= 2tt 


dove si è effettuato il cambio di variabile x = p cos 9 1 y = p sin 9. Il determinante jacobiano 
di tale sostituzione è pari a p (so veda l’appendice B). 

Ne segue che K~ 2 = 27T, ovvero K~ l = \/27r, quindi 




La funzione di ripartizione è 


1 _£ 

dove n(t) = f(t ) = _ e 2 . 

\/ 27T 

Per la simmetria, si ottiene che 


Previsione 


N{x) = f n(t ) ■ 
J — oo 


Af(-x) = 1 - JV(x) 


La previsione della distribuzione normale standard è 


P(X) = I x n(x) dx = 

Ìk 


poiché la funzione /(x) = xe ^ è dispari. 




Varianza 


La varianza è 


w = / 

J R 


-.e 2 dx 


2^/2^ 


[- 

Jr V2: 


-.e 2 da: 


funzione dispari 

0 


integrale della densità 

1 


Introduciamo la distribuzione normale , indicata con la notazione N(n, a 2 ). Sia X 
N( 0,1) e consideriamo Y = fi + al, con a > 0; la funzione di distribuzione di Y è 


Fy(v) = P (Y<y) 

= P(jU + al < y) 


pu< 


v-fl 


y-i* 


La densità di Y è allora 


fr(y) 


d y \ a 

Mt) 


1 _(v-ri 2 

-—= e 2 c 2 

a V27T 


Stima delle code 

Non esiste una formula in termini di funzioni elementari per la probabilità che X N( 0,1) 
sia più grande di un x > 0 fissato. Possiamo darne delle stime asintotiche dall’alto e dal 
basso. 


Proposizione 3.2 Sia X un numero aleatorio con distribuzione normale standard. Per ogni 
x > 0, vale che 

nix) nix) . nix) 

XX - XX < F(X >x)< XX 

XX 6 ' r ‘ 


Il procedimento consiste nell’integrazione per parti della funzione di densità di probabilità 
n(x). 




prima integrazione per parti 


r+oo 

F(X > x) = / n(t) 

J X 

= 

j, t 


n(t ) 

t,^dt 

t. 


X •> X 


n(t) , nix) 

A 2 At< ^ 


seconda integrazione per parti 

x nix ) 


P(X > x) 


’ n (t) i 

‘-r* 


n(x) [ n(t) 
x t 3 


-oo + ,+oo 3n ( t ) ^ > n(®) _ n(x) 


X . "/X 


X 2+ 


3.3.6 Distribuzione gamma T(a, A) 


Siano a, A > 0. Il numero aleatorio X ha distribuzione gamma di parametri a e A se X è un 
numero aleatorio con distribuzione assolutamente continua di densità 


9a, A<» 


r i<x a ~ i 

io 


-1 e -A^ 


x > 0 
x < 0 


Si noti che la distribuzione esponenziale è un caso particolare di distribuzione gamma 
corrispondente alla scelta del parametro a = 1. 

Per calcolare la costante di normalizzazione K , si considera la funzione gamma di Eulero 
definita nel modo seguente: 


r(a) = [ 

J o 


a^e"* dx 


Proprietà di r(a) 

1. r(a: + 1) = Q'r(ci') 

Dimostrazione. Si procede integrando per parti. 


e~ x dx 


x a e~ x da; 


r+oo 

r(a + 1) = / ^4-i- 1 e -x ± 

J o 

r+oo 

= x a e~ x dx 

J o 

= 

J 0 

r+oo 

= 0 + OL I 

J 0 


ax a 1 e x dx 


0 + OL 


«r(«) 


x Q_1 e~ x dx 




2. S e a = n allora T(o;) = F(n) = (n — 1)! 

Ne segue che la funzione T è un’estensione del fattoriale n\. 

Calcolo della costante di normalizzazione K 

Per calcolare il valore della costante di normalizzazione si procede imponendo che l’integrale 
della funzione di densità di probabilità sia uguale a 1. 


v (s)ds = [ 
J o 


Kx^e^ = 1 


Perciò si ottiene che 


K = 


x a ~^ e~ Xx 


Calcoliamo tale integrale effettuando il cambio di variabile y = Xx 


x a 1 e Xx 


V a 1 -y d y 


y a 1 e y dy 


Ne segue che la costante di normalizzazione c è data da 


Previsione di r(o;, A) 


P(X) 


/ xg a , x (x)dx 

J R 

r+oo \a 

/ xx*- 1 e~ Xx àx 

J o r («) 

\a r+oo 

rRio xC * eXxdx 


— 1 „—\x 


J 0 r(a) 

A a r+oo a 

r(a) io * 

A Q r(a + l) 
f(a) A“+ x 
A a «r(a) 
f(a) A“+ x 




(JU 
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la previsione è quindi data da 

P(X) = ? 

Varianza di r(«, A) 

a 2 

a\X) = P(V 2 ) - - 


P(V 2 ) 


Dalla precedente si ottiene 


-l 


+oo \ a 

x 2 =^x a - 1 e~ Xx dx 


f 

J o 


r(a) 


x a+ 1 e A:c dx 


A Q 

FR 

A" T(a + 2) 

IR A"+ 2 
A a (a + 1) a r(o;) 
IR A ^+2 

a (a + 1) 

V 


R) 


a (« + 1) 

P 


a 

P 


o 

P 


Osservazione sulla distribuzione T 

La distribuzione esponenziale è un caso particolare di distribuzione T che si ottiene ponendo 
o=l, ovvero la distribuzione esponenziale è espressa dal caso particolare T(l, A). 




Capitolo 4 

Distribuzioni assolutamente continue 
n-dimensionali 

4.1 Distribuzioni bidimensionali 

Consideriamo il vettore aleatorio (X, F). La funzione di ripartizione congiunta di (X, Y) è 
definita 

F(x,y) = F(X < x,Y < y ) 

La funzione di ripartizione è quindi una funzione da R 2 in [0,1]. 

F : R 2 —» R 

La probabilità degli intervalli si calcola come 

P(cn < X < b u a 2 < Y < b 2 ) = F[((X < h)\(X < m)) ((Y < b 2 )\(Y < a 2 ))] = 

F(X <b u Y <b 2 )- F(X <a u Y< b 2 ) - F(X <b u Y< a 2 ) + F(X < a u Y < a 2 ) = 

F(bi, b 2 ) — F(a i, b 2 ) — F(bi, a 2 ) + F(ai, a 2 ) 

Proprietà 

1. 0 < F(x. y) < 1 

2. Ipotesi di continuità (che supporremo sempre verificate): 

( i ) lini F(x,y) = 1 

X —> +oo 

y +oo 

(ii) lim F(x,y) = lim F(x,y) = 0 

x — y— oc y->-—co 

(in) lini F(x, y) = F(x 0 , y 0 ) 

X —>• CCq 

y^y o 

In queste ipotesi, si ottiene che 

F(X = x 0 ,Y = 2 / 0 ) = F(x 0 ,y 0 ) - F(xó,y 0 ) - F(x 0 ,yò) + F(xò,yò) 
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4.1.1 Funzioni di ripartizione marginali 

Dati X , y due numeri aleatori con funzione di ripartizione congiunta F(x, y ), si dicono funzioni 
di ripartizione marginali le funzioni di ripartizione F\,F 2 di X e Y. 

La funzione di ripartizione marginale per il numero aleatorio X si determina nel modo seguente 

Fi(x) = P(X < x) = lini F(x,y) 

y —»+oo 

Analogamente, si determina la funzione di ripartizione marginale per Y 

F 2 {y) = P(y < y) = lim F(x,y) 

X^- + (X 

Due numeri aleatori si dicono stocasticamente indipendenti se: 

F(x,y) = Fi(x)F 2 (y) 


per ogni coppia (.x , y) Gl 2 . 

Proposizione 4.1 Due numeri aleatori X , Y sono stocasticamente indipendenti se e solo per 
ogni quadrupla (a, b, c, d) di numeri reali vale che 


P(a < X < b,c <Y < d) = P(a < X < ò)P(c <Y < d) 

Dimostrazione. 


P(a < X <b,c<Y < d ) 


F(b, d ) - F(b, c ) - F(a, d) + F(a, c) 

Fi(6)F 2 (d) - Fi(b)F 2 (c) - F 1 (a)F 2 (d) + Fi(a)F 2 (c) 
(F 1 (b) - F 1 (a))(F 2 (d) - F 2 (c)) 

P(a < X < ò)P(c < Y < d) 


□ 


4.1.2 Caso assolutamente continuo 

Il vettore aleatorio (. X , Y) ha distribuzione assolutamente continua se esiste 

/ : R 2 —» R 


tale che 


1. / sia non negativa e integrabile 
2 - I I R 2 f(x,y)dxdy = 1 




e vale che 


F(x,y) = F(X <x,Y <y)= f f /(M)' 

J — oo J — oo 


Tale f(x, y) si dice densità congiunta. Applicando la formula per la probabilità degli 
intervalli, si ottiene 


rb rd 

P(a < X < b, c < Y < d) = / / /(s, t) 

«/ a J c 


In generale, la probabilità che il vettore aleatorio ( X 1 Y) appartenga ad una regione A del 
piano R 2 è data dall’integrale della densità congiunta su A 


P((X,F)eA) = J Jj(s,t)dsdt 


Inoltre, se ip : R 2 —> R è una funzione sufficientemente regolare, posto Z = ip(X , Y). come 
nel caso unidimensionale si ha che 


F (^) = f [ <KM)/(M)< 

J J R2 


Per esempio, se Z = XY si ottiene che 


P(1F) = f f stf(s 1 t)dsdt 

J ii 2 

Per calcolare le densità marginali di X e Y si usa il fatto che la funzione di ripartizione 
marginale si calcola come 

/ +oo rx r x à r \ 

/ f(sA)dsdt= / ( / /(s,t)dt) ds 

oo J —oo J —oo \t/R / 

Ne segue che la densià marginale è data da 


Analogamente, 


/+oo 

f{s,t ) 

•oo 

/ +oo 

f{s,t)( 

•oo 


Dalla definizione di indipendenza stocastica, segue che X ed Y sono stocasticamente 
indipendenti se e solo se 

f(x,y) = fx(x)f Y (y ) 


ovvero la densità congiunta è uguale al prodotto delle densità marginali. 




4.1.3 La densità di Z = X + Y 


Siano X ed Y due numeri aleatori con densità congiunta f(x, y ). Si vuole calcolare la densità 
di 


Z = X + Y 


Si calcola la funzione di ripartizione 


F z (z) = P(Z<z ) 

= P(X + Y<z ) 


/ i-oo rz—x 

/ f(x,y)dydx 

■OO J — OO 

/ + OO PZ 

dx / f(x,t-x ) 

•OO J —OO 

/ £ /»+oo 

dt / f(x,t-x) c 

•OO J —OO 


dove si è effettuato il cambio coordinate x = x e t = x + y con corrispondente determinante 
jacobiano | det J| = 1. Derivando si ottiene che la densità di Z è 


fz(z) = F' z (z) = [ f(x,z-x) dx 

Jr 


In particolare, se f(x,y) = fx{x)f Y (y), allora 


fz{z) = [ fx(x)f Y (z - x) dx 

Jr 


Come esempio particolare di questa formula, si considerino due numeri aleatori X ed Y 
stocasticamente indipendenti e, rispettivamente, di densità r(a, A) e r(/ 5 , A) (ovvero densità 
gamma di parametri a, A e /3, A). La densità congiunta di (X, Y) è data da 

f(x,y ) = fx(x)f Y (y). 

Utilizzando la formula precedente, si calcola la densità di Z = X + Y. 


/ +oo 

f (Xj z x)dx 

-OO 

/ +oo 

fx(x)f Y (z - x)dx 

-OO 

/ + 00 \Q \/3 

fw 1 "" 1 '""' 101 i W ) {z ~ xr ' e ~^ 

\ol+P r+oc 

= mm e ^ L «-»«> 


'e fby ( z - x f le X( ‘ 1> - ? f(i-i)>0)dx 
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Dato A C R n , si ricordi che la funzione Ia{x) si chiama funzione indicatrice ed è dehnita 
nel seguente modo 


!a{x) = { 


0 

1 


x A 
x e A 




Si ottiene dunque 

• Se z < 0, allora f z (z ) = 0; 

• Se z > 0 allora 0 < x < z e 


A Q+ ^ 

= r(a)r(p) e 


T(a)T(P) 

X a+P 


f x a 1 (z — xY 1 dx 

J 0 

f (zt) a ~ 1 (z — ztY^zdt 

J o 


= 

= Kz a+f) - l e~ Xz 

dove si é effettuato il cambio di variabili x = zt, dx = zdt e si è posto 

\ a+/3 /■! 

7^ _ / j.a-1 /i 


[ t a ~ l Y-tY~ 1 ' 

J 0 


r(a) rcs) io v 7 

Ne segue che Z ha distribuzione r(a; + /3, A). Quindi, se X e 1" sono stocasticamente 
indipendenti e hanno entrambi distribuzione esponenziale di parametro A, allora 


z = x + y ~ r(i, a) + r(i, A) = r(2, A) 


Si ha inoltre 


r (a; + /3) 

\oc+fi ri \a+/3 

nmf)l r ~ 1{1 - triàt = fWW) 

io r(a + /3) 


ovvero si è ottenuto il valore dell’integrale f* t a 1 (1 — tY 1 di in termini della funzione T. 

Si può introdurre la seguente distribuzione assolutamente continua importante in statisti¬ 


ci.4 La distribuzione beta B(a,(3) 

Siano ot,/3> 0. Un numero aleatorio X ha distribuzione beta B(a,P) se ha densità 

( Kx a ~ l (1 — xY~ l x E [0,1] 


0 


altrimenti 




con a, (3 > 0. Dai conti precedenti, si ottiene immediatamente 


La previsione 


r(g + P) _ _1_ 

r(a) r(/3) Jg 1 x Q_1 (1 — x)^ _1 dx 


F(X) 


-l 


x f(x) dx 

1 r(a + 0) 


x a {l-x0~ 1 dx 


Jo v ' 

r(a + i0) r(« + i)r(/5) 
r( a )r(/3) r(o + /3 + i) 
r(« + /5) Q r(a)r( J 0 ) 
r(g) f(d) (a + 0) r(a + 0) 

a 

(ex + 0) 


La varianza 


a\X) = P(X 2 ) - P(A) 2 = P(X 2 ) - 


(o; + f3) z 


Calcolo P(X 2 ) 


P(A 2 ) = [ x 2 f(x)dx 

J o 

f 1 r(a + /3) a+i ri \p -ij 

= h mwf (1 - x) ix 

r (a + P) r(a + 2)T(P) 
r(a)r(/3) r(« + /5 + 2 ) 
iV-Kg) (a + l)ar(q)r(^) 
r(o;) r(/3) (a; + fi + 1) (a; + 0) r(ct + fi) 
(a + 1) a 

(a, + /3 + 1 ) {a, + 0) 
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Si ottiene 


a 2 (X) = P(X 2 ) - P(X) 2 

(a + 1) a a 2 

(a + (3 + 1) (a + f3/ (o; + /3) 2 

et (et + l)(ct /5) — et (et + /3 -\- 1) 

(et + /5) (et + /3) (et + /3 + 1) 

a; et 2 + et + ct/3 + (3 — a 2 — et — a/3 
(a + f3) (a + (3) (a + /3 + 1) 
a f3 

(a + /3) 2 (a + (3 + 1) 

4.2 Distribuzioni n-dimensionali 

Sia (Xl,X 2 , ... , X n ) un vettore aleatorio di dimensione n. La funzione 

F :R n —> [0,1] 

definita come 

F(xi,x 2 ,... , x n ) = P(Xl < xi, X 2 < x 2 ,.. ■ , X n < x n ) 
si dice funzione di ripartizione di (Xl, X 2 ,... , X n ). 


Proprietà 

1. lini X1 +oc F(xi,x 2 ,. ■ ■ , x n ) = 1 


-4- +oo 

2. lim^^.oo F(x i, x 2 ,... , x n ) = 0 

4.2.1 Distribuzioni assolutamente continue n-dimensionali 

Il vettore aleatorio (X 1 ,X 2 ,.... ,X n ) ha distribuzione assolutamente continua se esiste una 
funzione 

f :R n —» E 

tale che 

1. / sia non negativa e integrabile 
2 - / K » f( x i, ■■■ ,x n )dx 1 ---dx n = l 
e vale che 

/Xl FX2 rX n 

/ •••/ f{ti,t 2 ,... ,t„)diidi 2 ... dt„ 

-00 J —oc J — oo 




Le funzioni di densità marginale si calcolano nel seguente modo 


fx n ,X ÌT (Zii , • • • ) X i r ) — f ( x h 5 • • • 5 X ir 1 +1 5 ■ ■ ■ 5 ) ^r +1 ' ' ' j„ 

li 11 "' - 

per ogni scelta di indici ii, ..., i T in { 1 ,..., n}. 

4.2.2 Distribuzione gaussiana n-dimensionale 

Un vettore aleatorio (Xl, X 2 ,... , X n ) ha distribuzione gaussiana n-dimensionale se ha densità 

f(x u x 2 ,... ,x n ) = Ke~ 1 i Ax - x+b - x 
dove x = (xi,x 2 ,... , x n Y E E n , A è una matrice 

• simmetrica : A t = A, ovvero a tJ = a Jt 

• definita positiva'. Ax ■ x > 0, Mx e M n , e Ax ■ x = 0 implica che x = 0 

e b = (òi, b- 2 , ■ ■ ■ , b n y è un vettore in R n . Il simbolo A t indica la matrice trasposta , ovvero di 
elementi 

[A\j = [A]j,i 

Si ricordi inoltre che b ■ x indica il prodotto scalare fra il vettore b ed il vettore x. ovvero 


b ■ x = biXi 

Ì — 1 

mentre Ax è il vettore che si ottiene come prodotto della matrice A per il vettore x, le cui 
componenti sono 

[A X \i = « ijXj 

j 

L’espressione Ax ■ x è una forma quadratica del tipo 

Ax ■ x = aijXiXj 

Viceversa, se si parte da una forma quadratica 


^ ^ OLij x i x j 


ci si può sempre ricondurre ad una rappresentazione matriciale associata ad una matrice 
simmetrica di componenti: 


°ij ~ 


(otij + OLji)j 2 


iy é 3 
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Caso 1: A diagonale e b = 0 

Siano 

/Ai 0 • • • 0 \ 


\ 0 • • • 0 \ n J 

e b = 0. Si ottiene 

/ x 2 ^2 

f(xi,x 2 ,... ,x„) = K exp- ( Aiy+ A 2 y + 



ovvero 

f(x ll X 2l ... , x n ) = f Xl Ol) fx 2 {x 2 ) • • • fX O'rJ 

dove 

fxXxi ) 

è la densità marginale di Ne segue che 

1. X 1? ... , X„ sono stocasticamente indipendenti 

2. Ogni Xj ha densità gaussiana N ( 0, 

3. La costante di normalizzazione è data da 



K 



/ 


det zi 
(27f) n 


Il vettore delle previsioni di (Xi,X 2 ,... , X„) è allora 


(P(X 1 ),P(X 2 ),... ,P(AQ) = (0,0,... ,0) 




e la matrice di covarianza 


a 2 (XO cov(X 1 ,X 2 ) 


cov(Xi, X„) 


cov(X 2 ,X 1 ) a 2 (X 2 ) 


cov(X n , Xi) 


cov(X n _ 1: X n ) 
cov (X n , X n _ ! ) a 2 (X n ) 


XT 0 

0 A 


0 •• 


0 f 


Caso 2: A diagonale e b ^ 0 

Per ricondursi al caso b = 0 si utilizza la traslazione X = U+c di componenti [X], = [£/]* +[c]*, 
dove c è un vettore di R n . Si ottiene 


f(x u x 2 ,... ,x n ) = f(ui + Ci ,u 2 + c 2 ,... ,u n + c n ) 

1 


= K' exp [-]-A(u + c) ■ (u + c) + b ■ (u + c)] 

-i -i -i -i 


= K' exp [— -Au ■ u — -Au ■ c — -Ac • u — -Ac • c + b ■ u + b ■ c] 
L 2 2 2 2 J 

= K' exp [— \ac ■ c + b ■ c] exp [— ^ Au ■ u + (b — Ac) ■ u] 

A A 

'-V-' 

costante 


in quanto 


Ac ■u = Au■c 


perché A è simmetrica. Per ricondursi al caso precedente, bisogna annullare la parte di primo 
grado in U, quindi si sceglie 


b — Ac = 0 


c = A~ 1 b 


(A è invertibile in quanto definita positiva). Per tale scelta di c 




,, , T ,, r ._ u l MA 1 b) ■ A 1 b 1 

f{u 1 +c 1 ,u 2 + C2'i.,..,u n + c n ) = K exp [A b-b ---J exp [--Au • wj 

1 1 

= K' exp [- A _1 b ■ b] exp [--Au- u] 

A A 


= K" exp [--Au ■ u] 

Usando i risultati precedenti, si ottiene 

1. la previsione P(Xj) = P([7* + c,) = P(Ui) + c* = 0 + c* 
in notazione vettoriale: 


P(Xj) = (A 1 b) i , ovvero 


F(X) = A~ l b 


2. La costante di normalizzazione è 


K’ = 


IdetA. ( > b . b 


in quanto K" = 


IdetA 
(27r) n ' 


3. La matrice di covarianza di X è la stessa di U in quanto una traslazione lascia invariate 
le covarianze. 

/ a 2 (Xi) cav(X 1 ,X 2 ) ••• cov(X l5 X n ) \ 


coy(X 2 ,X 1 ) a 2 (X 2 ) 


cov(X„_!, X n ) 


COv(X n . Xy) 


cov(X„, A n _i) 


a 2 ^) co y{Xh,U 2 ) 


cav(Ui,U n ) 


co v(C/ 2 ,t/i) 


cov(E/„_i, C/„) 


Ne segue che 


cov(U n , Ui) 


cov(C/ n , [/„_!) a 2 (U n ) 


C = A 
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Caso 3: A non diagonale e 6/0 

Se A non è diagonale, le Xi non sono più stocasticamente indipendenti perciò la densità 
congiunta non è data dal prodotto delle densità marginali. A meno di fare una traslazione, si 
può pensare di avere b = 0. Poiché A è simmetrica, esiste una trasformazione ortogonale O 
che diagonalizza A, ovvero tale O t AO = D, dove D è diagonale eO* = O -1 . 

Se si considera la trasformazione X = OU si ottiene 

/(«!,...,«„) = K exp [~ AOu ■ Ou] 

= I\ exp [— ^ O t AOu ■ u\ 

— K exp [— - Du ■ u] 

Ci siamo ricondotti al primo caso, in cui si aveva A diagonale e b = 0. La matrice di 
covarianza di X , in notazione multidimensionale, è data da 

C = P(ALY*) 

= p [ouipuf) 

= 0 tl P(UU t )0 
= O t D~ x O 
= A " 1 

Si vede facilmente che, se Z è una matrice aleatoria ed A , B sono matrici costanti, si ha 
che P(AZB) = AP(Z)B (ovviamente si suppone che sia possibile effettuare il prodotto). 
Riassumendo nel caso in A sia non diagonale e b ^ 0, si ottiene: 

1. Costante di normalizzazione 


K 


'det A 

(27r) n 


e -\A~H-b 


2. previsione 

P(X) = A~ l b 


3. matrice di varianza-covarianza 

C = A ~ 1 


Nota 

Anche in questo caso, le distribuzioni marginali delle Xi sono gaussiane N(P(X i ) 1 <r 2 (X)). 
Per la distribuzione gaussiana, cov(JY,, Xj) = 0 implica l’indipendenza stocastica di Xi e X r 




Caso particolare: n = 2 

La matrice di varianza-covarianza è data da: 


CTf paio 2 


paia 2 


dove con p si indica il coefficiente di correlazione. Si può quindi ricavare la matrice A dalla 
matrice di covarianza C nel seguente modo: 


A = C~ 


det C 


-poio 2 


— pO\02 


a\a\ - p 2 a\a\ 


— p0\02 


-pOia 2 


1 — p 2 


Quindi, la densità gaussiana bidimensionale con parametri mi, m 2 , ai, a 2 , p è data da: 


f{x,y) 


27raia 2 v/l - p- 


1 ({x — mi) 2 n p(x - mi)(y - m 2 ) t (y - m 2 ) 2 

eX P 0/1 l •> ^ _ _ ' •> 


2(1 - p 2 ) V v'ì 




Capitolo 5 

Catene di Markov a tempo discreto 


5.1 Catene di Markov omogenee con un numero finito 
di stati 


Definiamo una catena di Markov con spazio degli stati S, dove S è un insieme finito, come 
Sia (Xi)i E jy una successione di numeri aleatori ( Xì) ie j v con I(Xi) ie j v = S tale che 


P(X 0 — S(h Xl — Si, . . • , X n — S n ) — Ps 0 Ps 0 ,S\Ps\,S 2 ’ ’ ' Ps n -l,s n 

dove 

1. p Si i i = 1, ■ ■ ■ , n, è detta la distribuzione iniziale 

p Si = P(V 0 = i = 1,... ,n 


2. P tale che [P] tJ = p tJ è la matrice di transizione e possiede le seguenti proprietà: 


• P è una matrice quadrata di ordine n 


• 0 < p VJ < 1 

• E"= i Pn = 1 Vi = 1,... ,n 


L’elemento Pij di P è la probabilità subordinata di passare dallo stato i allo stato j. 
(Xi)i Ej \r si può interpretare come un numero aleatorio che si evolve nel tempo, dato da i G J\f. 

Si interpreta quindi l’elemento p %3 di P come la probabilità subordinata di passare dallo 
stato i allo stato j. 

Si ha inoltre che 


— S r — S r _i, • • • , Xq — Sq) — 


1P(J\.j. — S r , — Sj._x, • • • , Xq — So) 

P(A,._i — Sj._x, • • • , Aq — Sq) 


PsoPso,siPsi ,S2 ' ' -Psr-USr 
Ps 0 Ps 0 ,siPsi ,S2 ' ■■Ps r - 2 ,S r -l 


P Sr — 1 

La probabilità di trovarsi al tempo r (X r ) nello stato s r sapendo tutti gli stati precedenti 
dipende solo dallo stato immediatamente precedente (indipendenza dal passato). 
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Esempio 5.1 (Passeggiata aleatoria) Una passeggiata aleatoria è rappresentata da una 
catena di Markov con matrice di transizione 



Lo stato iniziale e quello finale presentano condizioni al bordo assorbenti. Nel caso di p = ^ 
si parla di passeggiata aleatoria simmetrica. 

Esempio 5.2 Consideriamo due urne A e B, ciascuna con N palline. Fra tutte le palline ve 
ne sono N bianche ed N nere. Si scelgono una pallina dall’urna A e una pallina dall’urna B 
e si scambiano. 

X % rappresenta il numero di palline bianche nell’urna A al tempo i. L’insieme degli stati 
è quindi 

S = {0,1,...,N} 

Pu è la probabilità di passare dallo stato k allo stato l. Si ottiene 

Pk,k = estraggo 2 palline bianche oppure 2 nere 
k N-k | N — k k 
N N + N N 

Pk,k+ 1 = estraggo 1 nera da A e 1 bianca da B 
N-kN-k 
~N TV 
(N - kf 


Pk,k -1 — estraggo 1 bianca da A e 1 nera da B 
k k 
NN 
lf_ 

N 2 

Queste formule valgono anche per k = 0 e k = N. Si otiene quindi la matrice di transizione 


P = 


0 1 0 

1 2(JV—1) /JV-1\2 

N 2 N 2 \ N ) 


0 

0 


0 


0 


1 0 
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5.1.1 La probabilità di transizione in n passi 

Usando la formula delle probabilità composte possiamo calcolare la probabilità di passare 
dallo stato s allo stato s allo stato s' in n passi. 


— S \X m — S) — T(A m _|_ n — S \X m — S , X m —i — S m —\, . . . , Aq — S o) 

_ -P(A^m+ri = S , X m — S, \ m _i — S m — i, . . • , Aq — So) 

= S, X m _i = S m — l, • • • 5 Aq = So) 

Ss m+1 ,... ,s m+ „_! ^(^m+ri = S , X m+n _i = S m+n _i, . . . , A 0 = So) 
^(Ajtj — S, X m —i — S m —i, . . . , Aq — S o) 

_ Es m+ l,...,S ra+ „-l A)Ps 0 ,Sl • • • Ps m - 1 ,sPs,S m +l ' ' ' Psm+n-l,s' 

Po Pso,si P 81 ■•52 ' • • fb m— 1 

= ^ ?^m+l Psm-\-n— 1 

®m+lv 1 

= m,,y 


Tale probabilità non dipende da m, ma solo da n, ovvero dal numero di passi intermedi, e si 
ottiene come l’elemento di coordinate s, s' dell’n-esima potenza della matrice di transizione 
P; questo, da ora in avanti, sarà indicato nel modo seguente: 


P(A, 


m+n 


s'\X m = s) = [P* 


- v {n) 

— Ps,s' 


Per convenzione, si definisce 



r i 



se s = s' 

altrimenti 


Per esempio 

P(AT m+2 = s'\x m = s) = ^2ps,s 1 Ps 1 ,s' = [ p2 ] SjS , 
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5.1.2 Classi di equivalenza 

Sia (Xi)i e M una catena di Markov con numero finito di stati ed omogenea. Uno stato s 
comunica con s' se 

3n|pg > 0 

ovvero se esiste un percorso di lunghezza tale che si passa con probabilità positiva dallo 
stato s allo stato s '. Questa proprietà si indica: s -< s'. 

Due stati, s e s ', si dicono equivalenti se s -< s' e s' -< s. Tale relazione è una relazione 
di equivalenza in quanto è riflessiva, simmetrica e transitiva. Basta verificare la proprietà 
transitiva: 




uo 
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s -< s' => .- «! •] p^) > 0 

s' -<s"^3n 2 | p^J, > 0 
Se si sceglie n = ni + ^2 


(m+ 712 ) _ [ pni+ri 2 " 

P s,s" ~ P Ja.a" 


n ( n 0 J" 2 ) > .,p ,lLI n v'*> > n 

2_^ p s,s 1 ^Sl,s” — Fs.s' Ps' ■" ^ U 


(ni) (n 2 ) 
' s s' "s' s" 


Si 


>0 


>0 


La relazione -< di comunicazione fra stati si può estendere senza ambiguità alle classi di 
equivalenza. Diciamo che [s] comunica con [s'j e scriviamo [s] [s'] se s ^ s'. È facile vedere 

che questa definizione non è ambigua, cioè non dipende dalla scelta degli elementi nelle classi 
di equivalenza. 

Una classe di equivalenza si dice massimale se non è seguita da nessun’altra classe nella 
relazione che abbiamo definito. Se la catena di Markov si trova in uno stato di una classe 
massimale, agli istanti successivi, con probabilità 1, essa si trova in uno stato che appartiene 
alla stessa classe. 

Si vuol definire il periodo di uno stato. Consideriamo: 


= { « |j>g > 0} 

Il periodo di uno stato s è dato dal minimo commi divisore (MCD) degli elementi di A+. Se 
il periodo è 1, si dice che lo stato è aperiodico. Per esempio, nella passeggiata aleatoria gli 
stati hanno periodo 2. Se l’insieme ^4+ = {0}, il periodo si può considerare 00 o non definito, 
a seconda delle convenzioni. 


Tutti gli stati di una classe di equivalenza hanno lo stesso periodo , per cui si può parlare 
del periodo di una classe di equivalenza. 

Dimostrazione. Sia s ~ s'. siano q periodo di s e q' periodo di s'. Basta dimostrare che 
q' divide ogni n E A+. Per l’equivalenza, si ha che: 

3 ni tale che p^) > 0 

3 n 2 tale che p^ 2 J > 0 

allora (ni + n 2 ) E Aj~ perché 

(m+n 2 ) 

lrS,S 

> 

> 


E 


P 


(ni) (n 2 ) 

S,Sl Si ,5 
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Ps.s' Ps's 


Ma (ni + n 2 ) appartiene anche ad A^\ quindi q e q' dividono (ni + n 2 ). Inoltre, per ogni 
n G At, (n + ni + n 2 ) sta in A+, perché 


(n+ni+n 2 ) 
Ps' ,s' 


> ,>2) An) (ni) 
— Ps's Ps.s Ps 


s,s' 


> 0 




U.Z,. 
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Quindi, q e q' dividono (71 + 711 + 712 ) per ogni ri G A+ e per ogni ri G A{(,, ovvero q e q' dividono 
n per ogni n G e per ogni n G A+,. Questo implica che 

q = q' 

□ 


Una classe C di equivalenza di periodo q < oo si può decomporre in q sottoinsiemi: 

C = Co U Ci U • • • U Cq—\ 

con la proprietà che se s G Ci, s' G C 3 e p( l j, > 0 allora n = (j — i) mod q. 

Se una classe di equivalenza massimale ha periodo q, i q sottoinsiemi in cui è decomposta 
sono percorsi ciclicamente dalla catena di Markov: cioè se X 0 G Cq allora X 1 G C^+i] . 
X 2 G C [i+2]q dove indichiamo con la notazione [k] q l’elemento dell’insieme {0,... ,q — 1} 
equivalente a k modulo q. 


5.2 Teorema ergodico 

Si vuole studiare il comportamento della catena al passare del tempo. 

Una catena di Markov con una sola classe di equivalenza aperiodica e con spazio degli stati 
finito ha la proprietà di convergenza ad una distribuzione invariante sugli stati e indipendente 
dallo stato iniziale. Questa proprietà è il risultato del seguente teorema detto ergodico. 

Teorema 5.3 (Teorema ergodico) Sia ( Xi) ie j v una catena di Markov omogenea con in¬ 
sieme fimito di stati. Se la catena è irriducibile (ovvero ha una sola classe di equivalenza) 
aperiodica, allora esiste una distribuzione di probabilità n = {ni,... ,7r n } sullo spazio degli 
stati, e delle costanti C e 0 < S < 1 tali che Vs G S, Vn si ha: 

|p$ - ^1 < CS" 


In altre parole esistono n s tali che: 

1 . 0 < 7T S < 1 

J2ses = 1 
e vale che 

lini pS! = 7r s V s G S 

n-r+oo s s 

con velocità esponenziale. 

Questo teorema può essere utilizzato anche nel caso di periodo q maggiore di 1, consi¬ 
derando la catena di Markov associata alla matrice di transizione P q . Infatti, la restrizione 
di tale catena ad ognuno dei sottoinsiemi C 0 , C\,... ,C q -1 soddisfa le ipotesi del teorema 
ergodico. 
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La distribuzione di probabilità II che appare nel teorema ergodico ha la proprietà di essere 
una distribuzione invariante : se la poniamo come distribuzione iniziale, se cioè P(X 0 = s) = tt s 
valesse per ogni s G S, allora per ogni s € S e per ogni n > 0 

P(X n = s) = 7T S 

Questa proprietà ci permette di calcolare tt s come soluzione di un sistema di equazioni 
lineari. Infatti 


7T S = P(Xi = s) 

= ^ P(X 0 = S')p s ’, s 

s' es 

— 'y ^ Ks' Ps' ,s 
s'es 

Inoltre, dato che ir s è una distribuzione di probabilità, abbiamo 

XX* = 1 

ses 

(tt s ) si dice distribuzione stazionaria per la catena. Si può dimostrare che, sotto le ipotesi 
del teorema ergodico, esiste una e una sola soluzione di questo sistema di | | + 1 equazioni 
in |5| incognite; una delle equazioni, in questo caso una delle prime IS 1 ) equazioni, è funzione 
lineare delle altre e quindi può non essere considerata nella soluzione del sistema: 

= n*p 

] 7T.5 = 1 

( 7Ti ^ 

7T2 

V 

II teorema ergodico ci dice che la catena dimentica lo stato di partenza all’aumentare del 
tempo. Si dimostra ora Vunicità. 

Dimostrazione. Supponiamo che (p s ) se s sia un’altra distribuzione che soddisfa il sistema 
(1). Si ottiene 

' p = p t P 

< 

k E v* = 1 



dove si è posto 


n = 




O.Zj. 
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si ha che 


T= 

II 

l ~o' 

4 

p = 

II 

tfP 

se n cresce all’infinito, P n converge 

alla matrice 



f 7Ti 

7T 2 • • • 




7T 2 • • • 

^n 



TT-2 ■■■ 

77 n 



ovvero 


Pj 


Y1 vìpìj = Y1 


pìp 


(n) 

ij 


Prendendo il limite lini. 


■n—»+oo P 


(n) 

ij 


7 Tj, si ottiene 


Ne segue che 


Ih 


Wi 



Pi — 71 j 


□ 





Capitolo 6 

Catene di Markov a tempo continuo 


Consideriamo il caso di un ufficio postale con n sportelli. In un tempo t arriveranno dei clienti 
e degli altri verranno serviti. 

Si vuole studiare qual è la distribuzione di probabilità che nel sistema siano presenti n 
clienti. Chiaramente, per fare ciò non basta considerare un solo numero aleatorio perchè il 
numero di clienti si considera a vari istanti nel tempo. Si introduce quindi un nuovo concetto, 
quello di processo stocastico. 

Un processo stocastico (X t ) teI , con / intervallo di R, è una famiglia di numeri aleatori 
indicizzati su un intervallo I di R. 

Se si ritorna all’esempio iniziale, il numero di clienti nel sistema al tempo t sarà dato da 
un numero aleatorio X t e, al variare del tempo, dal processo stocastico (X t ) t>0 . 

Una catena di Markov (Xi) ie j^ è un esempio di processo stocastico a tempi discreti in quanto 
gli indici variano fra i numeri naturali. 

6.1 Catene di Markov a tempo continuo con insieme di 
stati numerabile 

Una catena di Markov omogenea in tempo continuo con insieme di stati numerabile è un 
processo stocastico ( X t ) t>0 tale che /( X t ) = J\f per ogni t > 0. Nel caso di catene di Markov 
omogenee in tempo continuo, bisogna considerare per ogni intervallo di tempo t una matrice 
di transizione p s , s '(t ) = [II(i)] ss , non essendovi un intervallo di tempo minimale come nel 
caso del tempo discreto. Le matrici di transizione sono collegate fra loro dalle equazioni di 
Chapman-Kolmogorov che si possono scrivere in maniera sintetica 

U(t + h) = II(t) U(h) Vt,h> 0 

o esplicitamente 

Ps,s'(t + t') = ^2 Ps,s"(t)Ps",s'(t') 

s" 

Per poter trattare esempi interessanti, per esempio la teoria delle code, dobbiamo consi¬ 
derare il caso in cui lo spazio degli stati sia al più numerabile. In questo caso II(t) è una 
” matrice” con infinite righe e infinite colonne con elementi non negativi tale che la somma 
delle serie degli elementi di ogni riga sia uguale a 1. 
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Il prodotto riga per colonna di due matrici di questo tipo si può definire come nel caso di 
matrici quadrate con una serie al posto della somma: il risultato è ancora una matrice con la 
stessa proprietà, come è facile verificare. 

Come nel caso del tempo discreto si possono determinare le probabilità di transizione 
in più passi da quelle in un passo, così nel caso di tempo continuo è possibile determinare 
le probabilità di transizione a partire dal loro comportamento per un intervallo di tempo 
infinitamente piccolo. Il caso più semplice si ha nel modello denominato ” processo di Poisson”. 


6.2 Processi di Poisson 

Il processo di Poisson è una catena di Markov a tempo continuo con spazio degli stati S = Af 
e probabilità di transizione p s , s '(t ) che verificano 


1. p s ,s(h) = 1 - A h + o(h) 

2 . p s , s+ i(h) = A h + o(h) 

3. p SjS '(h) = o(h ) per s' g {s, s + 1} 


dove A è un parametro strettamente positivo e o(h) denota infinitesimi di ordine maggiore di 
h, che supponiamo essere uniformemente infinitesimi. 

A partire da queste ipotesi possiamo ottenere un sistema di infinite equazioni differenziali 
dette equazioni di Kolmogorov in avanti per le probabilità di transizione nei vari stati a partire 
da uno stato fissato (s). Fissiamo per esempio s = 0. Intuitivamente, questo significa che al 
tempo 0 non c’è nessun cliente nel sistema. Si pone 


Ps(t) = Po,s(t) per seS 


Le p s verificano il sistema di equazioni: 


lA(t) = -A p 0 (t) 

p' s (t ) = -A p s (t) + A p s -i(t) per s > 1 


Infatti calcoliamo il rapporto incrementale 


Ps{t + h) 

h 


Ps(t) 


per s > 0. 




H s {t + h) - n s {t) 
h 

Po,s(t + h) ~ Po, s (t) 

h 

EjgsPOj(*)Pj,*W -PQ,a(t) 
h 

(1 - \h)p 0ì8 (t) + XhpO'S-^t) + J2jes,j^ s ,j^s-iPoj( t )PjA h ) -PoA*) 

h 

~^Po,s{t) + A Po,s-l(t ) H 

—A/i s (t) + A/i s _i(t) H— 

Per h tendente a zero, tale rapporto converge a 

p' s (t) = —A/i s (t) + A/i s _i(t) per s > 1 

Per s = 0, si ottiene 

Po(t + h)~ p 0 {t) 
h 

Po,o(t + h) -p 0 ,o(t) 

h 

J2 je s Poj o ( h ) ~ Po,o (t) 
h 

(1 - \h)po fi (t) + J2 j es,j^oPo,j( t )Pj,o( h ) -Po,o(*) 

h 

-Ap 0 ,o(i) + ^ 

-A,.W + ^ 

che converge a 


dó CO = — A/ì 0 (0 

per /i che tende a zero. Possiamo risolvere iterativamente il sistema di equazioni ottenendo 


P 0 ,s(t) 
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La distribuzione del processo a tempo t è di Poisson con parametro A t. 
Nel caso di un s arbitrario si ha una traslazione di s: 


{ Ps,s(t ) = 0 


i 


PsA f ) 


(s - s)! 


per s < s 


per s > s 


Si vede dalle probabilità di transizione che il processo di Poisson è non decrescente con 
probabilità 1. Possiamo rappresentare graficamente il processo di Poisson nel seguente modo 



Figura 6.1: Schema di un generico processo di Poisson con stato iniziale in 0. 

dove la freccia che collega due stati sovrascritta da A indica che l’intensità di transizione 
fra i due stati è A. Osserviamo che da ogni punto s parte una freccia e che in ogni punto 
s' > 1 arriva una freccia. Queste due frecce, una uscente ed una entrante, corrispondono ai 
due termini nella parte destra dell’equazione differenziale. Per s = 0 si ha solo una freccia 
uscente che corrisponde all’unico termine dell’equazione differenziale. 

Se indichiamo con P s (t ) = P(lV(i) = s ) la probabilità che il processo di Poisson si trovi 
nello stato s al tempo t, abbiamo 

P s (t) = 

ses 

dove p s è la distribuzione iniziale. Da qui si vede che per ogni distribuzione iniziale le P s (t ) 
soddisfano lo stesso sistema di equazioni 

f P'(t) = -APo(t) 

\ P s '(f) = —\P s (t) + AP s _i(t) per s > 1 
Le Ps,s(t) P ossono considerare casi particolari in cui = 1 e p s = 0 per s ^ s. 

6.3 Processi a coda 

Consideriamo ora alcuni esempi di catene di Markov in tempo continuo che servono come 
modelli per i processi a coda. Nella teoria delle code vi è una notazione simbolica per denotare 
i tipi di processi. Gli esempi che considereremo descrivono un flusso di arrivi che segue un 
processo di Poisson con parametro A. I clienti che trovano uno sportello libero iniziano un 
tempo di servizio allo sportello, gli altri si mettono in coda. Quando uno sportello si libera, 
uno dei clienti in coda inizia il suo servizio. 
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Per quello che ci interessa non ha importanza in quale ordine i clienti accedono al servizio; 
poniamo, per esempio, che l’ordine sia casuale. Facciamo l’ipotesi che i tempi di servizio siano 
indipendenti e identicamente distribuiti e indipendenti dal processo di Poisson che regola il 
flusso degli arrivi. Supponiamo che la distribuzione del tempo di servizio sia esponenziale di 
parametro /j. 

Un processo di questo tipo viene denotato col simbolo M/M/n. Il primo M indica che il 
flusso degli arrivi è di Poisson, il secondo indica che il tempo di servizio è esponenziale ed n 
indica il numero degli sportelli e può variare da 1 a oo (anche il valore oo è ammissibile). 


6.3.1 Code M/M/ oo 

Si considera una situazione idealizzata in cui vi sono infiniti sportelli. Il processo degli arrivi 
è dato da un processo di Poisson di parametro A ed il tempo di servizio T ha distribuzione 
esponenziale di parametro /i. 

Sia (AQ)t>o il processo che indica il numero di persone presenti nel sistema. Come 
distribuzione iniziale si assume che 

' F(X 0 = 0) = 1 

< 

F(X 0 = i) = 0 * > 0 


Inoltre, il tempo di servizio ed il processo degli arrivi sono stocasticamente indipendenti. 
Per conoscere l’intensità di servizio si calcola la probabilità che un cliente venga servito nel 
tempo (t + h) se non è stato servito fino al tempo t. 


F(T <t, + h\T>t) 


F(t <T <t+ h) 
P(T > t) 

e -/ri _ g -n(t+h) 
e -!it 

1 - e~» h 

1 — (1 — jj,h + o(h )) 
/ih + o{h) 


Supponiamo che nel sistema vi siano n clienti. Se nessuno di essi è stato servito fino al tempo 
t, la probabilità che almeno uno di essi sia servito nel tempo (t + h) per h piccolo è allora 

1 — P(Ti > t + h,... , T n > t + h\T\ > t,... , T n > t) — 

1 -P(T > t + h\T > t) n = 

J _ e -nfth _ 
njih + o(h) 


L’intensità con cui si esce dal sistema è quindi proporzionale al numero di clienti che si trovano 
presenti nel sistema stesso, ovvero allo stato in cui si trova la catena. Si ottiene che il processo può 
essere rappresentato graficamente nel seguente modo: 





Figura 6.2: Rappresentazione grafica di una coda M/M/ oo. 


Ponendo po, s {t) — si possono scrivere le equazioni di Kolnrogorov utilizzando la regola 

descritta precedentemente: 

n' 0 (t) = nm(t) - a no(t) 

p'i{t) = ~{\ + ip) m{t) + + (i + \)nm + 1 (t) 

Si ricerca una soluzione stazionaria (pì)ì >o di tale sistema, ovvero una distribuzione che non dipende 
dal tempo. Si impone che 

Pi = 0 

ottenendo 

0 = npi - Xp 0 

0 = -(A + in)pi + \pi-i + (i + l)ppi+i 

Et” K = 1 

Sommando le equazioni fino alla i-esima si ottiene la formula ricorsiva 


Deve essere ^2 Pi — 1, quindi 



La serie — ( — | è la serie esponenziale con argomento e ■“, quindi 

^ V/v 


A 

— Pi-1 

t/j, 


1 / A 


*! 


In questo caso la distribuzione stazionaria esiste sempre. 


6.3.2 Code M/M/1 

Anche in questo caso, si suppone che il tempo di servizio T abbia distribuzione esponenziale di 
parametro //, che sia indipendente dal processo degli arrivi e che questi siano regolati da un processo 
di Poisson di parametro A. 
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Figura 6.3: Schema di una coda M/M/1 con stato iniziale in 0. 


Poiché si ha un solo sportello, l’intensità con cui il numero di clienti diminuisce è costante e pari 
a pi. Il grafico del processo è 

ed il sistema di equazioni differenziali, posto pi s = p 5)S (f), è dato da 

= nm (f) - A/r 0 (t) 

diW = ~{\ +n) m{t) + + nm +1 (t) 

Anche in questo caso si cerca la soluzione stazionaria. 

0 = npi - \po 

< 0 = -(A + n)pi + \pi-i + nPi+ 1 

. Et” Pi = i 

Dal sistema precedente si ottiene la relazione ricorsiva 



Quindi 

5'" 1 * (5 (;)')"■ 1 

v,- v -_✓ 

distribuzione 
geometrica 
parametro X/fj, 

La soluzione dell’equazione è 



per cui la distribuzione di probabilità diventa 



Ovvero, p t è una distribuzione geometrica di parametro — se 

l‘ 




cioè se — < 1, quindi A < fi, ovvero l’intensità di arrivo deve essere più bassa di quella di servizio. 

H 




Capitolo 7 
Statistica 


7.1 Densità subordinata di due numeri aleatori 


Prima di affrontare lo studio della statistica, si introduce la densità subordinata di un numero 
aleatorio Y rispetto ad un numero aleatorio X. Sia f(x. y) la densità congiunta di (X. Y). Si dice 
densità subordinata di Y rispetto ad X : 


fr\x(y\x) 


f{x,y) 

fx{x) 


se fx{x) > 0. 

Si ottiene subito una formula di Bayes per la densità. Poiché vale 

f{x,y) = f Y \x(y\x) fx{x) 

ma anche 

f( x ,y) = fx\r(x\y) hiv) 


si ottiene 


fy\x(y\x) 


fx\v(x\y) fr(y ) 
fx(x) 


7.2 Statistica Bayesiana 

7.2.1 Induzione statistica sulla Binomiale 

Si consideri una successione di eventi ( Ei) ie j v stocasticamente indipendenti subordinatamente 
alla conoscenza di un parametro 0, ovvero tali che 

p {Ei = \\e = e) = e 

dove 0 < 9 < 1. 

Gli eventi Ei possono essere pensati come il risultato di un esperimento; il fatto che essi 
siano stocasticamente indipendenti rispetto alla conoscenza di 0 significa che 

n 

¥(E 1 = e u ...,E n = e n \e = e) = ]J F(E t = e,|© = 9) 

Ì= 1 
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dove e, € {0,1}. 

Si assume che 0 abbia una distribuzione a priori tto(9) e si vuole vedere come cambia la 
distribuzione di © dopo aver effettuato n esperimenti E lr ,.. ,E n . Supponiamo quindi di aver 
effettuato gli n esperimenti con esito Ei = ei,... , E n = e n . La densità a posteriori di © è 
data da 

Tbi (fi | E\ 6i,... , E n e n ) 

Usando la formula di Bayes per la densità subordinata di due numeri aleatori si ottiene 


71 n (0 1 Ei — €i, ... , E n — e n ) 


FjE, =e u ... ,E n = e n \e = d)ir o (0) 

^(Ei = €i,... , E n = e n ) 

1 n 

= -7T O (0) JJP(E i = e i |0 = 0) 


dove c = P(E 1 = ei,... ,E n = e„). 

In particolare, se la distribuzione a priori ttq(6) è una distribuzione beta Ì3(a, fi) di 
parametri a e fi, anche la distribuzione a posteriori sarà dello stesso tipo , di parametri 


/ i \~^Tl 

* = OL + 2 ^ i= i ri 


r = fi + n- YJLi ri 


dove ri e n — ri contano, rispettivamente, il numero di eventi verificati e il numero 

degli eventi che non si sono verificati. Infatti 

1 n 

'n n (9\E 1 = e 1 ,,.. ,E n = e n ) = - tt 0 (9) T[ F(E t = e ? |© = 9) 

c Ìi 

~ e “- 1 (i - ef- 1 e'Zi £i (i - 9) n -^ ei 
_ 0a-l+Ei«t (1 _ 

dove il segno ~ indica che la densità è proporzionale alla funzione di © sopraindicata. 

Si ricorda la densità della distribuzione beta 


n 0 (9) 


K9 0 - 1 (1 


9 E [0,1] 


altrimenti 


dove K si calcola come 


T(a + fi) 


L (a) rcs) 

Ne segue che la densità a posteriori è una distribuzione beta di parametri a! = a — 1 + e, 

i 

ì' = fi — 1 + n — e*, ovvero 


Tfn(fi\E\ — Ci, . . • , E n — € n ) — 


r(q'+/3') /ja'-i /. _ 
r(q') r(/© 1 


9 E [0,1] 


0 


altrimenti 




7.2.2 Induzione statistica sulla media della distribuzione normale 


Sia (Xi) ie jsf una successione di numeri aleatori stocasticamente indipendenti subordinatamen¬ 
te alla conoscenza di un parametro © con densità subordinata 

( Xi - oy 

f& | 0 ) = —f^ e 2<t2 
o\J 2 tt 

con a G R + . 

Se la distribuzione a priori 7To (9) è una gaussiana iV(/x 0 , cT q ), dopo aver ottenuto i risultati 
dei primi n esperimenti la distribuzione a posteriori è allora 

TT n (9\X 1 ,... ,X n ) = tt 0 {9) f(x 1 ,... ,x n \d) 

n 

= 7Ì0 (0) Y\f(Xi\d ) 

Ì= 1 

A - do) 2 _ (x, - 0) 2 
~ e 2a 0 e~ E?=1 2a 2 


= exp 


= exp 




do $>A 

A / 



1 (0 - m n f 

2 . 




La densità a posteriori è quindi una 







Appendice A 
Richiami di Analisi 


In questa sezione si richiamano definizioni e concetti dell’analisi in una variabile fondamentali 
per lo sviluppo della teoria delle probabilità. 


A.l Limiti 

A. 1.1 Limite di una successione 

Sia (a n ) ne ^f una successione di numeri reali. Essa si dice 

1. convergente se 

lim a n = L < oo 

71—>-00 

ovvero se V e > 0 3 N = N(e) | Vn > N 

| a n — L | < e 

2. divergente se 

lim a n = +00 

ri-Aoo 

ovvero se 

VM> 0 3 N = N(M) | Vn>A 

a n > M 

Una successione può anche non essere né convergente né divergente. Per esempio, la 
successione a n = (—l) n oscilla fra 1 e —1. 

A.1.2 Limiti per le funzioni 

Una funzione / : R —R ha 

1. limite finito m x 

lim f(y) = L < 00 

y^x 
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Nell’analisi, tale scrittura ha il seguente significato: 
Ve>0 3 5 = fife) | Vjy — x\ < fi 


\f(y ) ~L | < e 


2. limite infinito in x 


lini f(y ) = +oo 

y^-x 


Nell’analisi, tale scrittura ha il seguente significato: 
VM> 0 3fi = fi(M) | y\y-x\<5 


m > m 


A.1.3 Continuità 

Una funzione si dice continua in un punto x Q se 


lim_ f(x) = lim f(x) = f(x 0 ) 

X—^Xq X—>Xq 

dove lim^^- f(x), lim x _ > . a .+ f(x) si dicono rispettivamente limite sinistro e limite destro 
di / in quanto il primo di essi viene fatto per gli x < x 0 , il secondo per gli x > x 0 . 


A.1.4 Limiti notevoli 

Si ricordano i seguenti limiti notevoli: 


lini 

fi + iy 

= e 

n—¥ oo 

V n) 


lini 

(l + -)" 

= e x 

n—¥ oo 

V nJ 


lini 

logfl + x) 

= 1 

x —>0 

X 



A.1.5 Serie notevoli 

Si ricordano le seguenti serie notevoli: 


1. La serie geometrica 


per ogni \x\ < 1. 


E* 

n =0 


1 


1 — X 




2. La serie “derivata” della serie geometrica 


1 

(1 - x) 2 


per ogni \x\ < 1. 


3. La serie esponenziale 


per ogni iGl. 



nx n 1 = 

n—1 


A.2 Le derivate 


Funzione f(x) 

Derivata f'(x) 

x n 


e x 

e x 


1 

log x 

x 

sin x 

cos x 

cos X 

— sin x 

z 2 

x 2 

e 2 

—x e 2 






oo 
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A.2.1 Tabella delle principali regole di derivazione 


^ [f(x) + g(x)] 

f'(x) + g'(x) 

^ [f( x ) g( x )\ 

f'{x)g{x) + f{x)g'{x) 

d r/(a)i 
dx |_ ^(a:) J 

f'{x) g{x) - f{x)g'{x) 
g 2 {x) 


f'(g( x )) ■ g'W 


A.3 Gli integrali 

1. Formula di integrazione per parti 



[f(x)g(x)] b a - f f'(x)g(x)dx 

J a 


2. Cambio di variabili 


x = g(y ) =>• dx = g\y) d y 


f b f9 1 (b) 

/ f(x) dx = / f(g(y))g'(y)dy 

Ja Jg~ 1 (a) 
















Appendice B 

Integrali bidimensionali 


In questa appendice si richiamano in breve alcune nozioni di analisi delle funzioni multidi- 
mensionali necessarie per lo studio della teoria delle probabilità. 


B.l Area delle figure bidimensionali 

Sia A una regione del piano; la sua area è data da 


areali = 



dxdy 



Figura B.l: Una generica regione del piano, indicata con A. 

Analogamente al caso unidimensionale, in cui la lunghezza del segmento [a, b] è data da 


l{[d,b]) = f 

J a 


dx 
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B.2 Integrale delle funzioni in due variabili 

Sia / : R 2 —* R ovvero z = f(x. y ). Una funzione in due variabili descrive una superficie in R 3 
di coordinate ( x , y. f(x,y)). Si vuole calcolare il volume compreso fra la superficie descritta 
dalla funzione e il piano xy. Tale volume è dato dall’integrale 


/ / f(x,y)dxdy 

J J R 2 


Si può anche considerare l’integrale su una regione fi C R 2 ; intuitivamente, l’idea è che 
il volume del solido di base fi e descritto dalla funzione f(x. y) sia decomponibile in volumi 
infinitesimi tali che: 

volume fi = E f{x,y) AxAy 



Figura B.2: Una funzione in due variabili integrata sull’area fi del piano xy. 
L’integrale è il limite per Ax e A y che tendono a 0 di tali somme. 

E A h \ f f < 7 (/)^ < E sup f AxA y 

In pratica, per calcolare gli integrali doppi si usa il teorema di Fubini-Tonelli che ci 
permette di calcolarli come due integrali in una dimensione annidati l’uno dentro l’altro. 




Esempio B.l Sia A = {1 < x < 2, 3 < y < 4} 



Esempio B.2 Sia B = {0 < x < 1, x — 1 < y < x + 1} 



Figura B.3: La regione del piano individuata da B. 
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Figura B.4: Dominio individuato da D 


Esempio B.3 A volte il problema è quello di suddividere opportunamente il dominio. 

Cambiare l’ordine di integrazione, ovvero integrare in un ordine diverso da quello con 
cui sono specificati i differenziali delle variabili, non cambia il risultato dell’integrale ed a 
volte rende più semplice il calcolo dell’integrale, come nell’esempio della figura B.4, dove 
D = {0 < y < 1, y - 1 < x < -y + 1}. 


r r ri r~y +i 

/ / f(x,y)dxdy = / d y f(x,y)dx 

J J D J 0 J y— 1 

ri r-x-\-l rO rx -\-1 

= dx f(x,y)dy+ / dx / f(x,y)dy 

J 0 j 0 J — 1 J 0 


Al primo passaggio, gli estremi di integrazione si trovano tracciando le parallele all’asse x e 
trovando i punti di intersezione di queste con il bordo della regione D. Al secondo passaggio 
invece, l’integrale è stato spezzato in due parti e gli estremi sono stati trovati con lo stesso 
metodo di prima tracciando però le parallele rispetto all’asse delle y. 


B.3 Cambio di variabili 

B.3.1 Derivate parziali rispetto ad una variabile 

Sia / : R 2 —> R, z = f(x,y). Si dice derivata parziale della funzione / rispetto alla variabile 
x e si scrive 

d£ 

dx 

la derivata di / ottenuta considerando la funzione come dipendente solo dalla variabile x 
considerando le altre variabili come se fossero parametri. In modo analogo si definiscono le 
derivate parziali di una funzione rispetto alle altre variabili. 


Esempio B.4 (Derivate parziali) 




U.O. Vedili U1U U1 VcUldUlll 


vo 


1- f(x,y) = x 2 y 

1 = 2x V 

df _ r 2 

dy ~ X 

2- f(x,y) = \og(xy) 

SL = ì 

d£ - ì 


dx x 

dy y 


Definite le derivate parziali di una funzione rispetto ad una variabile, è ora possibile definire 
il cambio di variabile per le funzioni in due dimensioni. 

Sia * : R 2 —» R 2 , (x,y) = (db (x 1 y) 1 * 2 ( 2 :, y)); si dice Jacobiano della funzione di 
trasformazione * e si indica con la notazione Jy la matrice così definita: 


( 0*1 

0*1 \ 

dx 

dy 


0*2 

\ dx 

dy ) 


Un cambiamento di coordinate in R 2 è dato da una funzione 

* : R 2 R 2 


(u,v) (x,y) 

con determinate proprietà di regolarità (diffeomorfismo). Per cambiare le coordinate negli 
integrali, si usa la regola: 




u. v)) |det | dxdy 



f o® 

\ U 


Esempio B.5 In questo esempio si richiama il calcolo della costante di normalizzazione del¬ 
la distribuzione normale standard in due dimensioni per portare un esempio del cambio di 
coordinate nella risoluzione di un integrale. 



e 2 ( a;2 +3/ 2 ) dxdy 


Per calcolare questo integrale è necessario pasare alle coordinate polari: 


x = p cos 9 


y = p sin 9 




(9, p ) -4 (x, y ) = (p cos 9, p sin 0) 


-/\i/ — 


W P cos 6 


p cos 0 


m p sin 9 ■§- p sin 9 


—p sin 9 
p cos 9 


Calcolando il determinante Jacobiano si ottiene 


Ne segue che 


det Jq = —p (sin 2 9 + cos 2 9) = —p 


det -/vi 


// e i 


(x 2 +y 2 ) 


dxdy 


c+oo p2ir 

/ dp pe~2 p2 d9 

J o J o 

/■+oo p2ir 

/ pe^dp / dfl 


= 27T [—e 


e quindi 


f + OO 9 

e~— dx 


In conclusione 


e 2 dx 


e 2 dy 


-ss «-* 


(x 2 +3/ 2 ) 


dxdy = 27T 


dx = VTk 


B.4 Sintesi dell’appendice 


1. Teorema del cambio dell’ordine di integrazione (Fubini-Tortelli) 

S / f(x,y)dy = j dy J f(x,y)dx = j J f{x,y)dxdy 


2. Cambio di variabili Dato il cambio di variabili Xj = ... , y n ) i = 1,... , n co 

corrispondente Jacobiano 






vo 



/ 

dh .. 

. Vi 

\ 



dx\ 

dx n 


det 







dfn . 

dfn 



V 

dx\ 

dx n 

/ 


se A cf 1 , vale che 



,x„)dxi... dx n 


IL 


f-HA) 


^(/(?/)) \ J f\ d v 


Inoltre, per determinare i nuovi estremi di integrazione, si utilizza il metodo delle rette 
normali, alcuni esempi del quale si possono osservare nelle figure riportate qui sotto. 



Figura B.5: Metodo delle rette normali quando varia la x. 
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Appendice C 

Elementi di calcolo combinatorio 


Si consideri un insieme fi 
ri 


{ai ,..., a n } contenente n elementi. 


si dice coefficiente binomiale e vale che 


ni 


rin 


ri 


Si ricorda che il simbolo 


C.l Disposizioni 

Si vogliono contare i modi di scegliere r elementi da un insieme di n elementi con ripetizione 
e tenendo conto dell’ordine, ovvero il numero delle disposizioni di r elementi su n. Si hanno 


1° elemento 


n scelte 


2° elemento 


n scelte 


r° elemento —> n scelte 

In totale, le disposizioni sono n • n---n = n r . Esse danno il numero di funzioni da un 
insieme di r elementi in un insieme di n elementi. 


C.2 Disposizioni semplici 

Si vogliono contare i modi di scegliere r elementi da un insieme di n elementi senza ripetizione 
e tenendo conto dell’ordine, ovvero il numero delle disposizioni semplici di r elementi su n. 
Si hanno 
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1° elemento —> n scelte 
2° elemento —> (n — 1) scelte 
3° elemento —> (n — 2) scelte 


r° elemento —> (n — r + 1) scelte 


In totale, le disposizioni semplici sono n ■ (n — 1) ■■■ (n — r + 1) = - - e si indicano 

n — r! 

con il simbolo D ” oppure ( n) r . Esse danno il numero di funzioni iniettive da un insieme di r 
elementi in un insieme di n elementi. 

Se r = n, si parla di permutazioni. 


C.3 Combinazioni semplici 

Si vogliono contare i modi di scegliere r elementi da un insieme di n elementi senza ripetizione e 
senza tener conto dell’ordine, ovvero il numero delle combinazioni semplici di r elementi su n. 
Data una combinazione semplice di r elementi su n, si ottengono r! disposizioni permutando 
gli r elementi. Il numero delle combinazioni è allora 



Esse danno il numero di funzioni iniettive da un insieme di r elementi in un insieme di n 
elementi con immagine diversa. 


C.4 Combinazioni 

Si vogliono contare i modi di scegliere r elementi da un insieme di n elementi con ripetizione 
e senza tener conto dell’ordine, ovvero il numero delle combinazioni di r elementi su n. Data 
una combinazione {ai,..., a n }, senza perdere di generalità si può supporre ai <■■■< a n . Si 
costruisce a partire da essa una combinazione semplice di r elementi in n + r — 1 elementi nel 
modo seguente: 




òi = ai 

b 2 = a 2 + 1 


b r = a r + r — 1 


Viceversa, data una combinazione semplice si può ad essa associare una combinazione. Le 
r-combinazioni sono quindi tante quante le r-combinazioni semplici in n + r — 1, ovvero sono 
( n+r-1\ 


C.5 Coefficiente multinomiale 

Il numero di modi di formare k gruppi di ri,..., r k elementi ciascuno in modo tale che ri + 
■ ■ ■ + r k = n è dato dal coefficiente multinomiale 


ni 

r\lr 2 l ■■■r k \ 


Per formare il primo gruppo di ri elementi, vi sono 

esso si può formare scegliendo gli elementi in 
formare i gruppi restanti. Si ottiene 



Tl \ 

j modi. Per il secondo gruppo, 
modi. Si procede analogamente per 
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Appendice D 

La formula di Stirling 


La formula di Stirling ci dà il comportamento asintotico di ni al crescere di n. Vale infatti 
che 


formula di Stirling: ni = n n+ 1 e n (l + 0(n x )) 

Per dimostrare tale formula, si prova in questa appendice un risultato più generale. 
Consideriamo la funzione Gamma di Eulero data da 


funzione Gamma 


r +oo 

: r(a)= / 

J o 


x a e X dx 


dove «El Essa rappresenta una generalizzazione del fattoriale in quanto per ogni a E 
vale che 


r(o! + 1) = Q'r(o') 

come si verifica facilmente integrando per parti. Se a è un numero naturale, per iterazione 
si ottiene 


T(n + 1) = ni. 

Per dimostrare la formula di Stirling si prova quindi il risultato più generale 

r(a + 1) = V%tt a a+ 5 e~ a (l + 0(ct _1 )) 

Consideriamo il logaritmo della funzione integranda <p(x) = logx a e x = a Ioga; — x. 
Facciamo lo sviluppo di Taylor di <j>(x) nel punto di massimo a: 


1 n 

4>{x) = a Ioga; — a — — (x — a) 2 + 


(—1)* 1 (x — a) h 


k=3 


k 


a 


k—2 


T OL 


dove ^ G [a, x\. Effettuiamo nell’integrale il cambio di variabile 

x — a 


u = 


\/oì ’ 


dx = \[ol du 


(-l) n (x - oì) n+1 
n +1 C n+1 
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Si ottiene 


r(a + 1) = a“+ 




e ~ %-+1>W du 


dove ip(u) = 


(—1)^ 1 u k „ + 3 (-l) n u n+l 


k a 2 1 


n + 1 (a + £) n+1 


con £ G [a, u . 


Dividiamo l’integrale in tre parti: 


h = [-\/o:, -a 15 ], d'i = [-a 15 , di' 5 ], V = [di' 5 , +oo] 

dove 5 > 0 è una costante opportunamente piccola. Per quanto riguarda li, 1-2 osserviamo 

u 2 

che la funzione <f>(u) è concava e quindi anche la funzione 9{u) = — — + ip(u) che si ottiene 

A 

da (f> con l’aggiunta di una costante ed un cambiamento lineare di variabile. Per u < —a 5 
abbiamo quindi 9{u) < — -^9(—a s ) e per u > —a 6 9(u) < —9(a s ). 

Dall’espansione di ip(u) con n = 2 vediamo che per a abbastanza grande e 5 < - abbiamo 

a 25 a 25 a 25 

9(—a°) < ——, 9(a°) < —— e quindi vale che per |u| > a 20 9{u ) < — \u\ Ne segue che 


[ e e{u) du+ [ e e{u) du< [ e -^du = 

Jh Jh J \u\>a ó 


o di +°° 

_jl 6 -h4 

aS -I a 6 


8 

—A e 4 

a à 


Consideriamo ora I 2 . Se scegliamo n = 3 si ottiene: 

e^)=expl4-^ 4 = l + ^ + 0(-) 

^ a 2 ? a 

con £ e [0, u] C I 2 e per |it| < a 6 . Ne segue che 


/ e *2 + ^ u '>du= e ” 2 du— e ^ du 4— -b / Ve * du + 0(a x ) = V27T + 0(a x ) 

h 2 J Ji c 2 3 Ji 2 

e quindi 


r(a + 1) = V2tt a“+^ e _a (l + O^ 1 )) 




Appendice E 

Dalle distribuzioni discrete a quelle 
assolutamente continue 


Di sotto viene riportata una tabella che mette in evidenza le analogie che si possono in¬ 
dividuare confrontando la teoria delle distribuzioni discrete con quella delle distribuzioni 
assolutamente contine. 


C. Discreto 


C. Ass. Continuo 

Probabilità 


Densità 

P(X = x ) 


f( x ) 

Funzione di 

ripartizione 

P(X < x ) 

E p (x = i) 

iEl(X),i<x 


px 

/ /(«) ds 

J —oc 


Previsione di X 


E >P(X=i) 

iei( x) 


r+oo 

/ sf(s)ds 

J — OO 

Previsione di 

Y = V(X) 


E <l(i)P(X = i) 
ìei(x) 


r+oo 

/ dt(s) f(s) ds 

J — OO 


P{X e A) 


E p x = i) 

i£l(X),i£A 


f f(s)ds 

J A 
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Appendice F 

Schema delle principali distribuzioni 
di probabilità 


105 



Distribuzione 


Bernoulli p 


Binomiale B(n,p) 


Geometrica p 


Ipergeometrica (n, N, b) 


Poisson A 



F.l Distribuzioni discrete 






























Distribuzione 


Densità 


P(X) 

a 2 (X) 

a + b 

(b - a) 2 

2 

12 

1 

1 

A 

A 2 

0 

1 

ii 

a 2 

a 

a 

A 

A 2 

a 

a,6 

a + (3 

(a + j5) 2 (o + /3 + 1) 


Uniforme [a,b] 


Esponenziale A 


Normale Std. N (0,1) 


Normale Gen. N(/j,a 2 


Gamma r(o, /3) 


Beta /3(a, /3) 


[a,b] c 
a b > a 


b — a 


A e~ Xx Is 


1 (x-n ) 2 

. e *,'■* 

T(J 2 


X a ^e- Xx Ir 


T ( a + P) a-1 (| J I 

T(a)T(P) [ ’ 


F.2 Distribuzioni assolutamente continue 
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Appendice G 

La distribuzione normale 
n-dimensionale 


Densità 

/ x i \ / bi \ 

x = : S(n), b = | 

y J \ b n J 

Costante di 
Normalizzazione 

V 

Previsione 

P{X) = A~ l b => P(Ai) = (^- 1 ò) i 

Matrice di 

Varianza e 
Covarianza 

C = y4 _1 

Distribuzione 
marginale di A, 

(* = lr" ,n) 

A, - A ((^- 1 Ò) J , [A -1 ],*) 
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Appendice H 

Il teorema di De Moivre-Laplace 


Teorema H.l Sia ( Xi) ie j v una successione di numeri aleatori con distribuzione binomiale 
di parametri rispettivamente B(n,p). Dati i numeri aleatori standardizzati 

_ X n - P(X n ) _ X n - np 
n cr (X n ) y/WP 


dove si è posto p = 1 — p, vale che 


p(KI = z) 





dove h n = ed E n (x) è l’errore che tende a zero uniformemente se x è limitato. 

\Jnpp 

Dimostrazione. Se l’insieme dei valori possibili di X n è I(X n ) = {0,1,..., n}, si ottiene 
che 


/(A*) = {h n (-np), h n ( 1 - np ),..., h n (n - np)} 


dove h n — . è la spaziatura dei valori di X* 

\/npp 

Definiamo <j) n (x) = logP(A* = x) e consideriamo il suo rapporto incrementale: 


<f> n {x + h n ) - <f> n {x) _ J_ P(A* = x + h n ) 
K K ° S P(A* = x) 

Posto k = np + Xy/npp , si ottiene 
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1 PQY* = x + hn) 
hn ° S = x) 

1 (n — k) p 

à; 1o «t TTp 


,—-, np — xJnpp p 

V n PP lo S-—r--7- 

np + 1 + x^/nppp 


y/npp log 


l - X \jVp 

i i 17 

1 H- X\ / — 

np \l np 


Se n tende aH’infinito, si può usare l’approssimazione log(l + x) = x + 0(x) che vale per 
x sufficientemente piccolo. Si ottiene 


1 — x 


\Jnpp log ■ 



1 + J.+JL 

np y np 


\fiivp \-xM + °C-) -xM + o( x -±±) 

[ y np n y np n 


x 2 + l 

-xp - xp + o {—= 

\Jn 

,x 2 + l 

~ x + 0 ( ^r ) 

La funzione <j) n (x) non è definita ovunque, ma solo per i valori di x tali che P(X* = x) ^ 0. 
Si estende ad ogni iGR usando la rappresentazione 


<t>n{x) = <t>n( 0) + [ (t>' n (y)dy 

J 0 


x‘2 -j- \ x ^ 1 

Se x < y < x + h n , ) = A hn (f> n {x) = -x + o{ — -=-) = -y + o{ — -=-) da cui: 

\Jn \Jn 


<t>n{x) = </>n(0) + / <t>'n(y)dy = 


X 3 + X, 


4n{ o)+ [ {~y)dy + o( 

J 0 


nn 2 /v>3 I nn 

« 0) - — + 0(-j=-) 



Poiché (f> n (x) = logP(X* = x), si ottiene 


l 0g P(X* = X ) = e M0) e -^ e En(x) 

. . ,X 3 + X, 

dove E n [x) = o(— 
y/n 

Stimiamo nel seguente modo. X* è un numero aleatorio standardizzato, quindi con 

P(À"*) = 0 e a 2 (X*) = 1. Dalla disuguaglianza di Chebichev, si ha che: 

nra > k) < X 

Si può scegliere K in modo da rendere questa probabilità arbitrariamente piccola, ovvero 
per ogni e > 0 esiste K tale che 


1 - Jp < P(KI < K) < 1 


o anche 


1 - e < F(\X*\ < K) < 1 

Poiché P(|-V* < K) = Ex,|x|<jc p (KI = ■>'■)■ ne segue 

l-e< E P(KI=^)<1 

x,\x\<K 

2 

n\K\<K)= y, p(i' Y »i = x)= E h n e 2 è la somma di Riemann della funzione 


x,\x\<K 


x,\x\<K 


, quindi tende a j^ K e ^ dx per n —* oc. Ne segue che 


e <t>n( 0) rK _ 

1 — e < —— / e~~dx <1 

> l n J-K 


Facendo tendere K all’infinito, si ottiene 


g</>n( 0) 


1 — e < ——< 1 

hn, 


Ne segue che 


F (KI =x) 




dove E n (x ) è l’errore che tende a zero uniformemente se x è limitato. □ 

Come applicazione del teorema, si ottiene un’approssimazione della funzione di ripartizione 
della distribuzione binomiale. Dati o, ò, 0 < a < b, si calcola: 




1 ±1 


11. 11 tcuicilld Ul J-AC IVlUlVI^-Udpid^C 


hn -.e~^~e En{x) 


A 


F(a <X* n <b)= £ PM = x) = J2 7=< 

a<x<b a<x<b * ^ 

_^ 2 2 

meno del resto, Vj —^=e - ^è la somma di Riemann di e - ^, quindi converge a 

~“R v27t 

a<x<b 


/ e 2 dx = Af(b) — A/"(a), dove jV(a;) è la funzione di ripartizione della gaussiana standard. 
J a 

Si può quindi studiare la convergenza della funzione di ripartizione F n {x) di X* nel seguente 
modo: 


F n (x) = F(X* <x)=F(-k< X* <x)+ F(X* < -k) = N(x) - Af{-k) + F(X* < -k) 

Per la disuguaglianza di Chebichev, si può rendere P(X* < — k ) piccola a piacere. Inoltre 
anche Af(—k) tende a zero per k —> oc, quindi la funzione di ripartizione della binomiale 
tende alla funzione di ripartizione della gaussiana standard. 




